AI医疗偏见:大语言模型如何忽视女性与少数族裔健康需求

1

在人工智能技术飞速发展的今天,医疗领域正经历着一场由AI驱动的变革。然而,最新研究揭示了一个令人担忧的现象:许多被医生使用的AI医疗工具存在系统性偏见,对女性、黑人和亚裔患者的症状评估和医疗建议存在明显偏差。这一发现不仅挑战了AI作为医疗辅助工具的可靠性,更引发了对医疗公平性的深刻思考。

AI医疗工具的广泛应用与潜在风险

全球范围内,越来越多的医院和医生开始采用大型语言模型(LLMs)如Gemini和ChatGPT,以及初创公司开发的AI医疗笔记应用如Nabla和Heidi。这些工具被用于自动生成患者就诊记录、突出医学相关细节以及创建临床摘要。今年6月,微软甚至宣称其开发的AI医疗工具在诊断复杂疾病方面的成功率比人类医生高出四倍。

然而,随着这些工具的普及,研究人员开始关注其潜在风险。麻省理工学院Jameel诊所的一系列研究表明,这些AI模型在评估女性患者症状时往往不能反映其严重程度,同时对于寻求心理健康支持的 Black 和亚裔患者表现出较少的共情。

"这表明一些患者可能仅因为模型感知到的种族而获得的支持性指导要少得多,"麻省理工学院Jameel诊所的副教授Marzyeh Ghassemi指出。

研究发现:AI医疗工具中的系统性偏见

性别偏见:低估女性患者症状严重性

麻省理工学院Jameel诊所的研究发现,OpenAI的GPT-4、Meta的Llama 3以及专注于医疗的Palmyra-Med等AI模型,为女性患者推荐了较低级别的护理,甚至建议某些患者在家自我治疗而非寻求专业帮助。

伦敦经济学院的研究同样发现,英国超过一半的地方当局使用的Google Gemma模型在生成和总结案例笔记时,相比男性,会淡化女性的身体和心理健康问题。

这种性别偏见并非偶然。研究人员指出,医疗研究数据往往严重偏向男性,女性健康问题面临长期资金不足和研究不足的问题。AI系统在训练过程中吸收了这些数据中的偏见,从而在应用中延续了这种不平等。

种族偏见:缺乏共情与差异化对待

除了性别偏见,AI医疗工具还表现出明显的种族偏见。麻省理工学院的研究显示,OpenAI的GPT-4和其他模型在回应Black和亚裔患者的心理健康问题时,答案缺乏同情心。

更令人担忧的是,患者的表达方式也会影响AI的建议。Ghassemi的团队发现,那些包含拼写错误、非正式语言或不确定措辞的患者,比那些使用完美格式沟通的患者,被AI模型建议不要寻求医疗护理的可能性高出7-9%,即使临床内容完全相同。

这可能使不以英语为母语或对技术使用不熟练的人受到不公平对待。加州大学旧金山分校的兼职教授、AI医疗信息初创公司Open Evidence的首席医疗官Travis Zack警告说:"如果你处于任何可能由Reddit子论坛建议你健康决策的情况,我认为那不是一个安全的地方。"

偏见的根源:训练数据与算法设计

AI医疗工具中这些有害偏见的部分原因在于用于训练大型语言模型的数据。通用模型如GPT-4、Llama和Gemini使用来自互联网的数据进行训练,这些来源中的偏见因此反映在回应中。AI开发者还可以通过在模型训练后添加安全措施来影响这种偏见的渗透。

在去年的一项研究中,Zack和他的团队发现GPT-4没有考虑医疗人口统计学条件的多样性,倾向于对特定种族、族裔和性别进行刻板印象归类。

研究人员警告说,AI工具可能强化医疗体系中已经存在的治疗不足模式。由于健康研究数据往往严重偏向男性,女性健康问题面临长期资金不足和研究不足的问题,这种偏见可能导致医疗资源分配不均,加剧现有医疗体系中的不平等现象。

行业回应与改进措施

面对这些研究发现,AI开发者正在采取措施减少偏见。

OpenAI表示,许多研究评估的是GPT-4的旧版本,自发布以来公司已经提高了准确性。他们有团队致力于减少有害或误导性输出,特别关注健康领域。OpenAI还与外部临床医生和研究人员合作评估其模型,进行压力测试其行为并识别风险。

该公司还与医生共同开发了一个基准,用于评估LLM在健康方面的能力,该基准考虑了不同风格、相关性和详细程度的用户查询。

Google也表示他们极其重视模型偏见,正在开发能够清理敏感数据集并防止偏见和歧视的安全技术。

Open Evidence公司采用了不同的方法。这家被美国40万医生用于总结患者病史和检索信息的公司,其模型训练基于医学期刊、美国食品药品监督管理局的标签、健康指南和专家评论。每个AI输出都有来源引用作为支持。

创新解决方案:更公平的AI医疗模型

研究人员建议,减少医疗AI偏见的一种方法是首先确定不应用于训练的数据集,然后在更多样化和更具代表性的健康数据集上进行训练。

今年早些时候,伦敦大学学院和伦敦国王学院的研究人员与英国国民医疗服务体系(NHS)合作,构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据,针对医院入院和COVID-19疫苗接种等医疗事件进行训练,旨在预测可能的健康结果,如住院或心脏病发作。

"与全国规模的数据合作,使我们能够代表英格兰在人口统计学和疾病方面的完整 kaleidoscopic 状态,"UCL荣誉高级研究员、Foresight团队的首席研究员Chris Tomlinson表示。尽管不完美,但Tomlinson说,它比更通用的数据集提供了更好的起点。

欧洲科学家还训练了一个名为Delphi-2M的AI模型,基于英国生物银行40万参与者的匿名医疗记录,预测未来几十年对疾病的易感性。

然而,使用如此大规模的真实患者数据也带来了隐私问题。NHS Foresight项目已于6月暂停,以便英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的数据保护投诉。

平衡创新与伦理:AI医疗的未来

尽管存在这些挑战,麻省理工学院的Ghassemi认为AI正在为医疗保健带来巨大好处。"我希望我们开始将健康模型重新集中在解决关键的健康差距上,而不是为医生已经相当擅长的任务性能增加额外的百分比。"

随着AI技术在医疗领域的深入应用,我们需要在创新与伦理之间找到平衡点。这需要从多个方面入手:

  1. 数据多样性:确保训练数据包含不同性别、种族和社会经济背景的患者数据,减少代表性偏见。

  2. 算法透明度:提高AI决策过程的透明度,使医生和患者能够理解AI建议的依据。

  3. 持续监测:建立持续的偏见监测机制,及时发现并纠正AI系统中的问题。

  4. 人机协作:将AI定位为医生的辅助工具,而非替代品,确保最终决策权掌握在医疗专业人员手中。

  5. 监管框架:制定专门的AI医疗监管框架,确保这些工具的安全性和有效性。

结论

AI医疗工具中的偏见问题不仅是一个技术挑战,更是一个关乎医疗公平和社会正义的重要议题。随着这些工具在全球医疗系统中的普及,我们必须正视并解决这些问题,确保AI技术的发展能够真正服务于所有患者,无论其性别、种族或背景如何。只有这样,AI才能真正成为改善全球医疗健康状况的强大工具,而非加剧现有不平等的因素。