AI医疗工具的性别与种族偏见:诊断不平等的数字鸿沟

2

人工智能技术正在迅速改变医疗行业的运作方式,从诊断辅助到病历记录,AI工具正被全球越来越多的医院和医生采用。然而,最新研究揭示了一个令人担忧的现象:这些先进的AI系统可能正在延续甚至放大医疗领域长期存在的性别和种族偏见。本文将深入探讨AI医疗工具中的偏见问题,分析其成因、影响及可能的解决方案。

AI医疗偏见的普遍存在

一项由美国和英国顶尖大学研究人员进行的一系列最新研究发现,医疗领域使用的大型语言模型(LLMs)存在明显的系统性偏见。这些AI工具在处理女性、黑人及亚裔患者的医疗信息时,往往低估其症状的严重性,同时表现出较低的共情能力。

MIT Jameel Clinic的研究团队发现,包括OpenAI的GPT-4、Meta的Llama 3和Palmyra-Med在内的多个AI模型,为女性患者推荐的护理级别显著较低,甚至建议部分患者居家自我治疗而非寻求专业医疗帮助。另一项由同一团队进行的研究显示,这些模型在回答黑人及亚裔患者心理健康问题时,提供的支持性指导明显少于其他种族患者。

"这表明,一些患者纯粹因为模型对他们的种族认知,可能会得到少得多的支持性指导,"MIT Jameel Clinic的副教授Marzyeh Ghassemi指出。

偏见的具体表现与影响

性别偏见:女性健康被系统性忽视

伦敦经济学院的研究发现,谷歌的Gemma模型(被英国超过半数地方政府用于支持社会工作)在生成和总结案例记录时,与男性相比,会淡化女性的身心健康问题。这种偏见并非孤立现象,而是反映了医疗领域长期存在的性别不平等。

医疗研究数据往往以男性为主要研究对象,导致女性健康问题面临长期资金不足和研究匮乏。AI系统若基于这些有偏见的数据进行训练,自然会延续这种忽视女性健康需求的历史模式。

种族偏见:少数族裔医疗需求被低估

MIT的研究团队还发现,当患者的信息包含拼写错误、非正式语言或不确定的措辞时,医疗环境中使用的AI模型更有可能建议他们不要寻求医疗护理(比格式完美的沟通内容患者高出7-9%的几率),即使临床内容完全相同。

这种现象可能导致英语非母语者或对技术使用不熟练的人群受到不公平对待,而这些人往往属于少数族裔或移民群体。此外,研究还发现AI模型在考虑人口统计学多样性方面存在不足,倾向于对特定种族、族裔和性别进行刻板印象化处理。

偏见的根源:数据与算法的双重问题

训练数据的内在偏见

有害偏见的部分原因在于用于训练LLMs的数据。GPT-4、Llama和Gemini等通用模型使用来自互联网的数据进行训练,因此这些数据源中的偏见也会反映在AI的回应中。互联网内容本身就包含大量历史性的性别和种族歧视信息,这些都会被AI系统吸收并放大。

"如果你处于任何可能让Reddit子论坛建议你健康决策的情况,我认为那不是一个安全的地方,"加州大学旧金山分校的兼职教授、AI医疗信息初创公司Open Evidence的首席医疗官Travis Zack表示。

算法设计中的盲点

除了数据偏见外,AI系统的设计和开发过程中也存在盲点。开发者在模型训练后添加的安全措施可能无法完全消除根深蒂固的偏见。OpenAI和谷歌等公司承认存在这一问题,并表示正在努力改进。

OpenAI表示,许多研究评估的是GPT-4的旧版本,自发布以来,公司已经提高了准确性。他们有专门团队致力于减少有害或误导性输出,特别是在健康领域。公司还与外部临床医生和研究人员合作评估其模型,对行为进行压力测试,并识别潜在风险。

谷歌则表示,他们极其重视模型偏见问题,正在开发能够清理敏感数据集并防范偏见和歧视的安全技术。

现实世界的后果:从数字偏见到健康不平等

AI医疗工具中的偏见可能产生严重的现实后果,进一步加剧医疗领域已有的不平等现象。当AI系统低估女性和少数族裔患者的症状严重性时,这些患者可能无法获得及时和适当的治疗,导致健康结果恶化。

这种偏见还可能强化现有的医疗歧视模式。历史上,女性和少数族裔的疼痛和症状经常被医疗专业人员低估或忽视,AI系统的介入可能使这一问题更加系统化和隐蔽化。

此外,当AI建议患者自我治疗而非寻求专业帮助时,特别是对于可能需要紧急医疗干预的情况,这可能导致严重的健康后果,甚至危及生命。

解决方案:构建更加公平的AI医疗系统

多元化训练数据

研究人员建议,减少AI医疗偏见的一种方法是首先确定不应用于训练的数据集,然后在更多元化和更具代表性的健康数据集上进行训练。

Open Evidence公司采用了这种方法,该公司被美国40万医生用于总结患者病史和检索信息。他们的模型在医学期刊、美国食品药品监督管理局的标签、健康指南和专家评论上进行训练。每个AI输出都有来源引用支持。

今年早些时候,伦敦大学学院和伦敦国王学院的研究人员与英国国民医疗服务体系(NHS)合作,构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据训练,用于预测可能的健康结果,如住院或心脏病发作。

"与全国规模的数据合作,使我们能够代表英格兰在人口统计学和疾病方面的全方位多样性,"UCL的名誉高级研究员、Foresight团队的首席研究员Chris Tomlinson表示。尽管不完美,但Tomlinson认为,这比更通用的数据集提供了更好的起点。

严格的评估与监管

欧洲科学家还训练了一个名为Delphi-2M的AI模型,基于英国生物银行40万参与者的匿名医疗记录,预测未来几十年的疾病易感性。

然而,使用如此大规模的真实患者数据会引发隐私问题。NHS的Foresight项目已于6月暂停,以便英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的数据保护投诉。

此外,专家警告AI系统经常"产生幻觉"——即编造答案,这在医疗背景下可能特别有害。

行业自律与责任

AI公司需要承担更多责任,确保其产品在医疗领域的公平性和安全性。这包括:

  1. 透明度:公开AI系统的训练数据、算法设计和评估方法
  2. 多样性:确保开发团队和测试人群的多样性
  3. 持续监测:建立机制持续监测和纠正AI系统中的偏见
  4. 用户教育:教育医疗专业人员了解AI系统的局限性

MIT的Ghassemi强调,AI正在为医疗保健带来巨大好处。"我希望我们开始重新关注健康领域的模型,以解决关键的健康差距,而不是为医生已经相当擅长的任务性能增加额外的百分比。"

未来展望:迈向更加公平的智能医疗

AI技术在医疗领域的应用前景广阔,但必须建立在公平、透明和负责任的基础上。解决AI医疗偏见不仅需要技术层面的改进,还需要医疗专业人员、政策制定者、患者权益倡导者和AI开发者的共同努力。

未来,我们可以期待看到更多专注于医疗公平性的AI研究,更多元化的训练数据,以及更严格的监管框架。同时,医疗专业人员需要保持批判性思维,将AI视为辅助工具而非决策替代者,特别是在处理可能存在偏见的人群时。

最终,目标是构建一个能够真正为所有人提供平等、优质医疗服务的智能医疗体系,而不是创造一个新的数字鸿沟,进一步加剧现有的健康不平等。

AI医疗诊断

结语

AI医疗工具中的性别和种族偏见提醒我们,技术本身并非中立,它反映并可能放大社会中已有的不平等。随着AI在医疗领域的应用越来越广泛,我们必须正视并解决这些问题,确保技术创新能够真正促进健康公平,而不是成为新的歧视来源。只有通过多方合作和持续努力,我们才能实现AI医疗的真正潜力——为每个人提供更准确、更公平、更人性化的医疗服务。