AI医疗工具的性别与种族偏见:健康不平等的数字放大器

1

在医疗技术快速发展的今天,人工智能正以前所未有的速度融入医疗实践。从自动生成病历到辅助诊断,大型语言模型(LLM)如Gemini和ChatGPT被全球越来越多的医院和医生采用。然而,一系列最新研究揭示了令人不安的事实:这些AI工具在为女性、黑人和亚裔患者提供建议时存在系统性偏见,可能导致这些群体的症状被低估,从而影响治疗效果。这一发现引发了对AI在医疗领域应用的深刻担忧,尤其是在医疗资源本就不均衡的背景下。

AI医疗偏见的研究发现

MIT Jameel Clinic的研究团队在2025年6月进行了一项具有里程碑意义的研究,揭示了AI医疗工具中的性别偏见。研究发现,OpenAI的GPT-4、Meta的Llama 3以及专门为医疗设计的Palmyra-Med等模型,为女性患者推荐的护理水平明显低于男性患者,甚至建议一些女性患者居家自我治疗而非寻求专业医疗帮助。

AI医疗诊断工具

更令人担忧的是,MIT团队的另一项研究表明,这些模型在面对寻求心理健康支持的黑人及亚裔患者时,表现出较少的同理心和关怀。MIT Jameel Clinic的副教授Marzyeh Ghassemi指出:"这表明一些患者可能仅仅因为模型对其种族的感知,而获得的支持性指导大幅减少。"

伦敦经济学院的研究也得出了类似结论。该研究发现,谷歌的Gemma模型——被英国超过一半的地方当局用来支持社会工作者——在生成和总结案例记录时,对女性身心健康问题的重视程度明显低于男性。

偏见的表现形式与影响

症状严重性低估

AI医疗工具对女性和少数族裔患者症状的严重性评估存在系统性偏差。这种偏差可能导致以下严重后果:

  1. 诊断延误:症状被低估意味着患者可能无法及时获得必要的诊断和治疗
  2. 治疗不足:基于错误评估的治疗方案可能无法满足患者的实际需求
  3. 健康结果恶化:长期来看,这可能导致可预防的健康问题发展为严重疾病

同理心缺失

研究发现,AI模型在面对不同种族和性别患者时,表现出不同程度的同理心。这种差异主要体现在:

  • 对白人患者更倾向于提供详细解释和情感支持
  • 对黑人及亚裔患者建议更简短、缺乏情感连接
  • 对女性患者使用更简化的语言,暗示其症状不那么严重

语言与表达能力歧视

MIT的研究还发现,患者表达方式也会影响AI模型的建议质量。那些消息中包含拼写错误、非正式语言或不确定措辞的患者,比那些使用完美格式化沟通的患者,被AI模型建议不要寻求医疗护理的可能性高出7-9%,即使临床内容完全相同。

这一发现引发了对语言障碍和技术不熟悉人群的担忧,可能导致非英语母语者或对技术不适应的患者在医疗系统中处于不利地位。

偏见产生的根源

训练数据中的历史偏见

AI医疗工具中的偏见部分源于其训练数据。像GPT-4、Llama和Gemini这样的通用模型使用互联网数据进行训练,因此这些数据中存在的偏见也被反映在模型的回应中。加州大学旧金山分校的兼职教授兼AI医疗信息初创公司Open Evidence的首席医疗官Travis Zack指出:"如果你处于任何可能让Reddit子论坛建议你健康决策的情况,我认为那不是一个安全的地方。"

Zack及其团队在去年的一项研究中发现,GPT-4没有考虑医疗条件的人口统计学多样性,倾向于对某些种族、族裔和性别产生刻板印象。

医疗研究中的数据不平衡

研究人员警告说,AI工具可能强化医疗系统中已经存在的治疗不足模式,因为健康研究中的数据往往严重偏向男性。例如,女性健康问题面临长期资金不足和研究不足的问题。

医疗AI研究

开发者的设计选择

AI开发者也可以通过在模型训练后添加安全措施来影响偏见如何渗透到系统中。然而,这些措施往往不足以消除根深蒂固的偏见。

行业回应与改进措施

面对这些发现,主要AI公司已采取措施应对医疗偏见问题。

OpenAI的改进

OpenAI表示,许多研究评估的是GPT-4的旧版本,自发布以来,公司已提高了准确性。他们有专门团队致力于减少有害或误导性输出,特别关注健康领域。OpenAI还表示与外部临床医生和研究人员合作,评估其模型,进行压力测试,并识别风险。

该公司还与医生合作开发了一个基准,用于评估LLM在健康方面的能力,该基准考虑了不同风格、相关性和详细程度的用户查询。

Google的应对策略

谷歌表示对模型偏见问题"极其重视",正在开发能够清理敏感数据集并防范偏见和歧视的安全技术。

数据集改进

研究人员建议,减少AI医疗偏见的一种方法是首先确定不应用于训练的数据集,然后在多样性和代表性更强的健康数据集上进行训练。

Open Evidence公司(在美国有40万名医生使用其工具来总结患者病史和检索信息)表示,他们在医学期刊、美国食品药品监督管理局的标签、健康指南和专家评论上训练其模型。每个AI输出都有来源引用支持。

创新解决方案与未来方向

多样化数据集的应用

今年早些时候,伦敦大学学院(UCL)和国王学院(KCL)的研究人员与英国国家医疗服务体系(NHS)合作,构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据,包括住院和COVID-19疫苗接种等医疗事件,旨在预测可能的健康结果,如住院或心脏病发作。

UCL的名誉高级研究员、Foresight团队的负责人Chris Tomlinson表示:"使用全国规模的数据使我们能够代表英格兰在人口统计学和疾病方面的完整多样性状态。"虽然不完美,但Tomlinson表示,这比更通用的数据集提供了更好的起点。

隐私保护与公平性平衡

然而,使用如此大规模的真实患者数据带来了隐私问题。NHS Foresight项目于6月暂停,以允许英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的数据保护投诉。

专注于关键健康差距

尽管存在挑战,MIT的Ghassemi强调AI为医疗保健带来了巨大好处。"我希望我们将开始重新关注健康领域的模型,解决关键的健康差距,而不是为医生已经很擅长的任务性能增加额外的百分比。"

结论:迈向公平的AI医疗未来

AI医疗工具中的性别和种族偏见是一个复杂但紧迫的问题,需要多方共同努力解决。这包括:

  1. 数据多样性:确保训练数据代表各种人口群体,避免复制现有的医疗不平等
  2. 算法透明度:提高AI决策过程的透明度,使医疗专业人员能够理解并质疑AI的建议
  3. 持续监测:建立系统持续监测AI工具在不同患者群体中的表现,及时发现并纠正偏见
  4. 多方合作:AI开发者、医疗专业人员、政策制定者和患者团体需要紧密合作,确保AI技术公平地服务于所有人群

随着AI在医疗领域的应用不断扩大,我们必须确保这些技术不是简单地复制和放大现有的健康不平等,而是真正成为缩小差距、促进医疗公平的有力工具。只有这样,我们才能实现AI医疗技术的真正潜力——为每个人提供更准确、更公平、更有效的医疗服务。