随着人工智能技术在医疗领域的广泛应用,一个令人担忧的问题浮出水面:许多AI医疗工具在诊断过程中存在系统性偏见,对女性、黑人和亚裔患者的症状评估不足,同时表现出较少的共情能力。这一发现引发了对AI技术在医疗领域应用的深刻反思,也揭示了算法如何可能无意中强化现有的医疗不平等模式。
研究发现:AI医疗工具的系统性偏见
麻省理工学院Jameel诊所的最新研究揭示了一个令人不安的现象:OpenAI的GPT-4、Meta的Llama 3以及Palmyra-Med等专注于医疗的大型语言模型,在评估女性患者的症状严重性时,倾向于建议较低级别的护理方案,甚至建议部分患者居家自我治疗而非寻求专业医疗帮助。
更令人担忧的是,该团队进行的另一项研究表明,这些AI模型在回应黑人及亚裔患者心理健康问题的咨询时,表现出较少的同情心和共情能力。麻省理工学院副教授Marzyeh Ghassemi指出:"这表明,纯粹基于模型对患者种族的感知,一些患者可能会得到支持性少得多的指导。"
伦敦经济学院的研究也得出了类似结论,发现谷歌的Gemma模型(被英国超过半数地方政府用于支持社会工作者工作)在生成和总结案例记录时,会淡化女性与男性相比的身心健康问题。
偏见的表现形式与影响
这些AI医疗工具中的偏见并非单一维度,而是呈现出多种表现形式:
症状严重性低估:女性患者的症状往往被AI模型评估为不那么严重,导致建议的治疗方案不够积极。
共情能力不足:在回应心理健康问题时,AI模型对黑人和亚裔患者的回应表现出较少的理解和支持。
语言风格歧视:麻省理工学院的研究团队发现,患者信息中包含拼写错误、非正式表达或不确定措辞的,比那些格式完美的沟通,有7-9%的更高几率被AI模型建议不要寻求医疗护理,即使临床内容完全相同。
这种偏见可能导致多种负面后果:
- 强化现有的医疗不平等模式
- 使非英语母语者或技术使用能力有限的人群受到不公平对待
- 可能导致某些患者群体获得次优治疗方案
- 长期来看,可能加剧不同人群之间的健康差距
偏见的根源:数据与算法的双重影响
AI医疗工具中的偏见主要源于两个层面:训练数据固有的社会偏见,以及算法设计中的潜在缺陷。
训练数据中的社会偏见
大多数通用AI模型,如GPT-4、Llama和Gemini,都是使用互联网数据进行训练的。这些数据中包含的现有社会偏见自然会被模型吸收并反映在其响应中。
加州大学旧金山分校兼职教授、AI医疗信息创业公司Open Evidence的首席医疗官Travis Zack指出:"如果你处于任何可能让Reddit子论坛指导你健康决策的情况,我认为那不是一个安全的地方。"
更具体地说,医疗研究数据往往存在严重偏差,过度偏向男性数据,而女性健康问题则面临长期资金不足和研究不足的困境。这种数据不平衡直接影响了AI模型的判断。
算法设计中的潜在缺陷
除了数据偏见外,AI系统的设计方式也可能引入或放大偏见。例如,某些优化目标可能无意中导致模型对特定群体的表现较差。
此外,AI系统经常出现的"幻觉"现象——即编造答案——在医疗背景下可能特别有害。一个错误的诊断建议可能导致严重的健康后果。
行业应对与缓解措施
面对这些问题,科技公司和研究人员正在采取多种措施来减少AI医疗工具中的偏见。
科技公司的改进努力
OpenAI表示,许多研究评估的是GPT-4的旧版本,自推出以来,公司已经提高了模型的准确性。OpenAI拥有专门团队致力于减少有害或误导性输出,特别关注健康领域。该公司还与外部临床医生和研究人员合作评估模型,对其行为进行压力测试,并识别潜在风险。
OpenAI还与医生合作开发了一个基准测试,用于评估LLM在健康方面的能力,该基准考虑了不同风格、相关性和详细程度的用户查询。
谷歌则表示,对模型偏见"极为重视",正在开发能够净化敏感数据集并防范偏见和歧视的保护技术。
多样化数据集的应用
研究人员建议,减少医疗AI偏见的一种方法是首先确定不应用于训练的数据集,然后在更多样化和更具代表性的健康数据集上进行训练。
Open Evidence公司(在美国被40万名医生用于总结患者病史和检索信息)的Zack表示,他们的模型是在医学期刊、美国食品药品监督管理局的标签、健康指南和专家评论上进行训练的。此外,每个AI输出都有来源引用支持。
创新解决方案:更具代表性的医疗AI
一些创新项目正在尝试通过使用更广泛、更具代表性的数据集来构建更公平的AI医疗工具。
英国NHS的Foresight项目
今年早些时候,伦敦大学学院和伦敦国王学院的研究人员与英国国民医疗服务体系(NHS)合作,构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据,这些数据涉及住院和COVID-19疫苗接种等医疗事件。Foresight旨在预测可能的健康结果,如住院或心脏病发作。
伦敦大学学院荣誉高级研究员、Foresight团队首席研究员Chris Tomlinson表示:"与国家级数据合作,使我们能够代表英格兰在人口和疾病方面的全方位多样状态。"虽然不完美,但Tomlinson认为,这比使用更通用的数据集是一个更好的起点。
Delphi-2M模型
欧洲科学家还训练了一个名为Delphi-2M的AI模型,该模型基于英国生物银行40万参与者的匿名医疗记录,可以预测未来几十年内对疾病的易感性。
然而,使用如此规模的实时患者数据往往引发隐私问题。NHS的Foresight项目已于6月暂停,以便让英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的数据保护投诉。
未来展望:平衡效率与公平
尽管存在这些挑战,麻省理工学院的Ghassemi强调,AI正在为医疗保健带来巨大好处。"我希望我们开始将健康领域的模型重新集中在解决关键的健康差距上,而不是为医生已经很擅长的任务性能增加额外的百分比。"
随着全球医疗系统越来越多地采用AI辅助诊断,解决这些偏见问题变得至关重要。这需要多方共同努力:
开发者的责任:科技公司需要更加重视模型的公平性和代表性,在设计和测试阶段就考虑偏见问题。
监管框架的建立:需要制定明确的监管标准,确保AI医疗工具在部署前经过严格的公平性评估。
医疗专业人士的参与:临床医生应该在AI工具的开发和评估过程中发挥更积极的作用,确保这些工具真正满足医疗需求。
公众意识的提高:患者和公众需要了解AI医疗工具的局限性,以及如何识别和报告潜在的偏见问题。
结论
AI医疗工具中的性别和种族偏见问题是一个复杂但紧迫的挑战。虽然这些工具有可能提高医疗效率并减轻医疗系统负担,但如果不能有效解决偏见问题,它们可能会无意中加剧现有的医疗不平等。
通过采用更多样化的训练数据、改进算法设计、加强监管框架以及提高公众意识,我们有可能开发出既高效又公平的AI医疗工具,确保所有患者群体都能获得公平、高质量的医疗服务。这不仅是一个技术挑战,更是一个关乎社会公平和正义的重要议题。