AI医疗工具偏见研究:女性与少数族裔症状遭系统性忽视

1

引言:AI医疗的隐藏危机

随着人工智能技术的迅猛发展,大型语言模型(LLM)正迅速渗透到医疗领域。从Gemini到ChatGPT,这些AI工具被全球众多医院和医生用于自动生成患者就诊记录、突出医疗相关细节以及创建临床摘要。然而,一系列最新研究揭示了一个令人担忧的现象:这些AI医疗工具存在系统性偏见,对女性、黑人和亚裔患者的症状严重性评估不足,并表现出较低的同理心。这一发现不仅挑战了AI在医疗领域的可靠性,更可能加剧现有的医疗不平等现象。

研究发现:AI医疗工具的偏见表现

女性患者症状被系统性低估

MIT Jameel Clinic在6月进行的研究发现,OpenAI的GPT-4、Meta的Llama 3以及医疗专用LLM Palmyra-Med等AI模型,在评估女性患者症状时,普遍建议较低级别的护理方案,甚至建议部分患者在家自我治疗而非寻求专业医疗帮助。这一发现令人震惊,因为它意味着女性患者可能因此得不到及时和适当的治疗。

AI医疗诊断

少数族裔患者面临低同理心对待

同一研究团队进行的另一项研究表明,OpenAI的GPT-4等模型在为黑人和亚裔患者提供心理健康支持时,表现出较低的同情心和同理心。MIT Jameel Clinic的副教授Marzyeh Ghassemi指出:"这表明一些患者可能仅因其被模型感知到的种族而获得少得多的支持性指导。"

语言表达差异导致不平等对待

Ghassemi的团队还发现,在医疗环境中使用的AI模型,对于那些包含拼写错误、非正式语言或不确定表述的患者信息,会建议其不要寻求医疗护理的可能性,比那些格式完美的沟通高出7-9%,即使临床内容完全相同。这一发现意味着不擅长英语表达或对技术使用不熟练的患者可能面临不公平的对待。

偏见根源:数据与算法的双重问题

训练数据的固有缺陷

有害偏见的部分问题源于用于训练LLM的数据。通用模型如GPT-4、Llama和Gemini都是使用互联网数据进行训练的,这些来源中的偏见因此反映在AI的回应中。加州大学旧金山分校的兼职教授兼AI医疗信息初创公司Open Evidence的首席医疗官Travis Zack指出:"如果你处于任何可能让Reddit子论坛建议你健康决策的情况,我认为那不是一个安全的地方。"

医疗研究中的性别与种族失衡

研究人员警告称,AI工具可能强化医疗系统中已经存在的治疗不足模式,因为健康研究中的数据往往严重偏向男性。例如,女性健康问题面临长期资金不足和研究不足的问题。Zack和他的团队在去年的一项研究中发现,GPT-4没有考虑医疗条件的人口统计学多样性,倾向于对特定种族、族裔和性别进行刻板印象化处理。

行业反应与应对措施

科技公司的回应

面对这些研究发现,大型科技公司纷纷作出回应。OpenAI表示,许多研究评估的是GPT-4的旧版本,自发布以来公司已经提高了准确性。该公司有团队致力于减少有害或误导性输出,特别关注健康领域。OpenAI还与外部临床医生和研究人员合作评估其模型,对其行为进行压力测试,并识别风险。该公司还与医生共同开发了一个基准,用于评估LLM在健康方面的能力,该基准考虑了不同风格、相关性和详细程度的用户查询。

谷歌则表示,对模型偏见"极为重视",正在开发能够净化敏感数据集并防止偏见和歧视的保护技术。

解决方案的探索

研究人员提出,减少医疗AI偏见的一种方法是首先确定不应用于训练的数据集,然后在多样化和更具代表性的健康数据集上进行训练。Open Evidence就是这样一个例子,该公司被美国40万名医生用于总结患者病史和检索信息,其模型在医学期刊、美国食品药品监督管理局的标签、健康指南和专家评论上进行了训练。每个AI输出都有来源引用支持。

创新尝试:更具代表性的医疗AI模型

英国NHS的Foresight项目

今年早些时候,伦敦大学学院(UCL)和国王学院(KCL)的研究人员与英国国民健康服务体系(NHS)合作,构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据训练,这些数据包括住院和COVID-19疫苗接种等医疗事件。Foresight旨在预测可能的健康结果,如住院或心脏病发作。

UCL的荣誉高级研究员、Foresight团队的首席研究员Chris Tomlinson表示:"与国家规模的数据合作,能够让我们在人口统计学和疾病方面全面代表英格兰的多样性状态。"尽管不完美,Tomlinson认为这比使用更通用的数据集提供了更好的起点。

Delphi-2M模型的前瞻性预测

欧洲科学家还训练了一个名为Delphi-2M的AI模型,该模型基于英国生物银行(UK Biobank)中40万参与者的匿名医疗记录,预测未来几十年内对疾病的易感性。

挑战与争议:隐私与可靠性问题

数据隐私的伦理困境

使用如此大规模的真实患者数据,隐私往往成为一个问题。NHS Foresight项目在6月被暂停,以便英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的数据保护投诉。

AI系统的"幻觉"风险

此外,专家警告称,AI系统经常"产生幻觉"或编造答案,这在医疗背景下可能特别有害。然而,MIT的Ghassemi表示,AI正在为医疗保健带来巨大好处。"我希望我们将开始重新关注健康模型,以解决关键的健康差距,而不是为医生已经相当擅长的任务性能增加额外的百分比。"

结论:迈向更公平的AI医疗未来

AI医疗工具的偏见问题揭示了技术进步与伦理考量之间的紧张关系。虽然AI在提高医疗效率方面具有巨大潜力,但如果不解决其内在偏见,这些工具可能无意中强化现有的医疗不平等。未来的发展方向应该包括:开发更多样化、代表性的医疗数据集;建立更严格的AI医疗评估标准;以及确保AI系统的透明度和可解释性。只有这样,AI才能真正成为医疗保健的平等赋能者,而非加剧社会不平等的工具。

AI医疗未来