在人工智能技术迅速发展的今天,医疗领域正经历一场深刻的变革。从自动生成病历摘要到辅助诊断,AI工具正在被全球越来越多的医院和医生采用。然而,随着这些技术的广泛应用,一个令人担忧的问题浮出水面:这些AI系统是否存在偏见,特别是对特定人群如女性和少数族裔患者的系统性偏见?
研究发现:AI医疗工具的性别与种族偏见
近期一系列由美国和英国顶尖大学研究人员进行的研究揭示了一个令人不安的现象:许多大型语言模型(LLM)驱动的医疗AI工具在评估女性、黑人和亚裔患者症状时存在明显的偏见。
对女性患者的症状低估
麻省理工学院 Jameel Clinic 的研究发现,包括 OpenAI 的 GPT-4、Meta 的 Llama 3 和医疗专用模型 Palmyra-Med 在内的 AI 系统,为女性患者推荐的护理水平显著低于男性患者。在某些情况下,这些模型甚至建议一些患者进行家庭自我治疗,而非寻求专业医疗帮助。
伦敦经济学院的另一项研究也得出了类似结论。该研究发现,谷歌的 Gemma 模型(被英国超过一半的地方当局用于支持社会工作者)在生成和总结案例笔记时,倾向于低估女性在身心健康方面的问题,而相比之下对男性问题的描述则更为严重。
对少数族裔患者的同理心缺失
MIT 研究团队的另一项研究表明,OpenAI 的 GPT-4 等模型在为寻求心理健康问题的黑人和亚裔患者提供回答时,表现出较少的同情心和同理心。这意味着"仅凭模型对这些患者种族的感知,一些患者可能会得到支持性低得多的指导",MIT Jameel Clinic 的副教授 Marzyeh Ghassemi 指出。
语言表达差异导致的不公平
Ghassemi 的团队还发现,在医疗场景中使用的 AI 模型,对于包含拼写错误、非正式语言或不确定措辞的患者信息,比那些格式完美的沟通内容,有 7-9% 的更高概率建议患者不要寻求医疗护理,即使临床内容完全相同。
这一现象可能导致非英语母语者或不习惯使用技术的人群遭受不公平对待,进一步加剧医疗资源获取的不平等。
偏见根源:数据与算法的双重问题
训练数据中的固有偏见
有害偏见的部分问题源于用于训练 LLM 的数据。通用模型如 GPT-4、Llama 和 Gemini 是使用互联网数据进行训练的,这些来源中的偏见因此反映在模型的响应中。AI 开发商还可以通过在模型训练后添加安全措施来影响这些偏见如何渗透到系统中。
"如果你处于任何可能让 Reddit 子论坛建议你健康决定的情况,我认为那不是一个安全的地方," 加州大学旧金山分校的兼职教授、AI 医疗信息初创公司 Open Evidence 的首席医疗官 Travis Zack 表示。
在去年的一项研究中,Zack 及其团队发现 GPT-4 没有考虑医疗人口统计学条件的多样性,倾向于对某些种族、族裔和性别进行刻板印象化。
医疗研究数据的性别失衡
研究人员警告说,AI 工具可能强化医疗体系中已经存在的治疗不足模式,因为健康研究数据往往严重偏向男性,例如,女性健康问题长期面临资金和研究不足的困境。
行业回应与改进措施
面对这些严峻的发现,AI 开发商和医疗行业正在采取一系列措施来减轻偏见,提高医疗 AI 的公平性和可靠性。
AI 开发商的改进承诺
OpenAI 表示,许多研究评估的是 GPT-4 的旧版本,自推出以来公司已经提高了准确性。他们有团队致力于减少有害或误导性输出,特别关注健康领域。该公司表示,他们还与外部临床医生和研究人员合作,评估模型,对其行为进行压力测试,并识别风险。
OpenAI 还与医生共同开发了一个基准,用于评估 LLM 在健康方面的能力,该基准考虑了不同风格、相关性和详细程度的用户查询。
谷歌表示,他们极其重视模型偏见,正在开发能够清理敏感数据集并防范偏见和歧视的安全技术。
更具代表性的数据集训练
研究人员建议,减少医疗 AI 中偏见的一种方法是首先确定不应用于训练的数据集,然后在更多样化和更具代表性的健康数据集上进行训练。
Zack 表示,Open Evidence(被美国 40 万名医生用于总结患者病史和检索信息)在其模型训练中使用医学期刊、美国食品和药物管理局的标签、健康指南和专家评论。每个 AI 输出都有来源引用支持。
专用医疗 AI 模型的开发
今年早些时候,伦敦大学学院和伦敦国王学院的研究人员与英国国民保健署(NHS)合作,构建了一个名为 Foresight 的生成式 AI 模型。该模型基于来自 5700 万人的匿名患者数据,包括住院和 COVID-19 疫苗接种等医疗事件,旨在预测可能的健康结果,如住院或心脏病发作。
"与国家级数据合作使我们能够代表英格兰在人口统计学和疾病方面的完整多样性状态," UCL 的荣誉高级研究员、Foresight 团队的主要研究人员 Chris Tomlinson 表示。虽然不完美,但 Tomlinson 说它比更通用的数据集提供了更好的起点。
欧洲科学家还训练了一个名为 Delphi-2M 的 AI 模型,基于英国生物银行中 40 万参与者的匿名医疗记录,预测未来几十年对疾病的易感性。
隐私与伦理挑战
虽然这些专用模型提供了希望,但使用如此规模的真正患者数据常常引发隐私问题。
NHS Foresight 项目于 6 月暂停,以便英国信息专员办公室考虑英国医学会和皇家全科医师学院提交的数据保护投诉,投诉针对该模型训练中使用敏感健康数据的方式。
此外,专家警告说,AI 系统"幻觉"或编造答案的现象可能在医疗背景下造成特别大的危害。
平衡创新与公平:医疗 AI 的未来
尽管存在这些挑战,MIT 的 Ghassemi 强调 AI 正在给医疗带来巨大好处。"我希望我们将开始重新关注健康中的模型,以解决关键的健康差距,而不是为医生已经相当擅长的任务性能增加额外的百分比。"
医疗 AI 的未来需要在技术创新与公平、包容之间找到平衡。这需要多方利益相关者的共同努力:
开发者的责任:AI 开发商需要优先考虑模型的公平性和透明度,确保在追求性能提升的同时不加剧现有偏见。
监管框架的建立:政府和监管机构需要制定明确的指导方针和标准,确保医疗 AI 系统的安全、有效和公平。
医疗专业人员的参与:临床医生需要在 AI 工具的设计、评估和实施过程中发挥核心作用,确保这些工具真正满足医疗需求。
患者的声音:患者和患者组织需要参与到关于医疗 AI 的讨论中,确保这些技术反映多样化的需求和关注点。
持续的研究与监测:需要持续研究 AI 系统在真实医疗环境中的表现,建立监测机制以发现和纠正任何偏见或问题。
结论:迈向更公平的医疗 AI 时代
AI 医疗工具的性别和种族偏见问题提醒我们,技术进步必须与社会公正携手并进。虽然 AI 有潜力彻底改变医疗保健,提供更高效、更可及的服务,但如果这些系统复制甚至放大现有的不平等,它们可能会适得其反。
解决这些问题需要行业、学术界、监管机构和医疗专业人员之间的合作。通过优先考虑公平性、多样性和包容性,我们可以开发出不仅技术上先进,而且真正服务于所有人群的医疗 AI 系统。
在享受 AI 带来的医疗便利的同时,我们必须确保这些技术不会成为加剧健康不平等的工具,而是成为缩小差距、促进公平医疗的助力。只有这样,我们才能真正实现医疗 AI 的承诺:为每个人提供更好的健康结果。