AI医疗偏见：大语言模型如何加剧医疗不平等

在人工智能技术飞速发展的今天，医疗领域正经历着一场由AI驱动的变革。从诊断辅助到病历记录，从治疗方案推荐到健康预测，AI工具正越来越多地融入医疗系统的各个环节。然而，最新研究表明，这些看似客观的AI系统可能隐藏着深刻的偏见，对女性和少数族裔患者造成不公平的医疗待遇。

AI医疗工具的普及与潜在风险

全球范围内，越来越多的医院和医生开始使用大型语言模型(LLMs)如Gemini和ChatGPT，以及初创公司开发的AI医疗笔记应用，如Nabla和Heidi。这些工具能够自动生成患者就诊记录、突出医疗相关细节并创建临床摘要，大大提高了医疗工作效率。

今年6月，微软宣称其开发的AI医疗工具在诊断复杂疾病方面的成功率比人类医生高出四倍。这类技术突破无疑为资源紧张的医疗系统带来了希望。然而，随着这些工具的广泛应用，一个令人担忧的问题浮出水面：这些AI系统是否对所有患者都一视同仁？

MIT Jameel Clinic的一项研究发现，OpenAI的GPT-4、Meta的Llama 3以及专注于医疗的Palmyra-Med等AI模型，对女性患者推荐的护理水平显著低于男性患者，甚至建议部分患者居家自我治疗而非寻求专业医疗帮助。

伦敦经济学院的研究同样发现，在英国超过一半地方政府使用的Gemma模型在生成和总结案例记录时，会淡化女性的身心健康问题，而相比之下，男性同类问题则得到更重视。

AI医疗工具

MIT研究团队的另一项研究表明，OpenAI的GPT-4等模型在为寻求心理健康支持的黑人和亚裔患者提供回答时，表现出较少的同情心和同理心。

"这可能意味着，仅凭模型对患者种族的认知，一些患者就会得到少得多的支持性指导，"MIT Jameel Clinic的副教授Marzyeh Ghassemi指出。

更令人担忧的是，Ghassemi的团队发现，患者信息中的拼写错误、非正式语言或不确定的措辞，会使他们被AI模型建议不要寻求医疗护理的可能性增加7-9%，即使临床内容完全相同。

这一现象可能导致英语非母语者或不擅长使用技术的患者受到不公平对待，进一步加剧医疗不平等。

AI医疗偏见的部分问题源于训练LLMs使用的数据。通用模型如GPT-4、Llama和Gemini主要使用互联网数据进行训练，这些数据中固有的偏见因此被反映在AI的响应中。

"如果你处于任何可能让Reddit论坛指导你的健康决策的情况，我认为那不是一个安全的地方，"加州大学旧金山分校的兼职教授、AI医疗信息初创公司Open Evidence的首席医疗官Travis Zack表示。

在去年的一项研究中，Zack及其团队发现GPT-4没有考虑疾病的人口统计学多样性，倾向于对某些种族、族裔和性别进行刻板印象描述。

研究人员警告称，AI工具可能强化医疗系统中已经存在的治疗不足模式，因为健康研究数据往往严重偏向男性。例如，女性健康问题长期面临资金不足和研究不足的问题。

这种数据失衡在AI训练中被放大，导致模型对特定群体的健康状况理解不全面，进而产生有偏见的建议。

面对这些研究发现，主要AI公司纷纷表态并采取措施。

OpenAI表示，许多研究评估的是GPT-4的旧版本，自推出以来公司已提高了准确性。他们有专门团队致力于减少有害或误导性输出，特别关注健康领域。OpenAI还与外部临床医生和研究人员合作评估模型，进行压力测试并识别风险。

谷歌则表示对模型偏见"极为重视"，正在开发能够净化敏感数据集并防范偏见和歧视的隐私技术。

研究人员建议，减少AI医疗偏见的一种方法是首先确定不应用于训练的数据集，然后在更多样化、更具代表性的健康数据集上进行训练。

Open Evidence就是这样一个例子，该公司在美国有40万名医生使用其模型总结患者病史和检索信息。他们的模型在医学期刊、美国食品药品监督管理局的标签、健康指南和专家评论上进行训练，每个AI输出都有来源引用支持。

今年早些时候，伦敦大学学院和伦敦国王学院的研究人员与英国NHS合作，构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据，针对医院入院和COVID-19疫苗接种等医疗事件进行训练，旨在预测可能的健康结果，如住院或心脏病发作。

"与全国规模的数据合作，使我们能够代表英国在人口统计学和疾病方面的完整多样性状态，"UCL荣誉高级研究员、Foresight团队首席研究员Chris Tomlinson表示。虽然不完美，但Tomlinson认为这比使用更通用的数据集是一个更好的起点。

AI医疗应用

欧洲科学家还训练了一个名为Delphi-2M的AI模型，基于英国生物银行中40万参与者的匿名医疗记录，预测未来几十年内对疾病的易感性。

然而，使用如此大规模的真实患者数据带来了隐私问题。NHS Foresight项目在6月被暂停，以便英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的数据保护投诉。

专家还警告，AI系统经常出现"幻觉"或编造答案，这在医疗背景下可能特别有害。错误的医疗建议可能导致严重后果，甚至危及生命。

尽管存在这些挑战，MIT的Ghassemi强调AI为医疗保健带来了巨大好处。"我希望我们开始将健康领域的模型重新集中在解决关键的健康差距上，而不是为医生已经很擅长的任务增加百分之一的性能提升。"

AI医疗工具的偏见问题提醒我们，技术进步必须与公平和正义并行。随着AI在医疗领域的影响力不断扩大，我们需要确保这些系统不会复制甚至放大现有的社会不平等。通过改进数据集、增强算法透明度、实施严格的监管和评估机制，我们有望开发出真正公平、有效的AI医疗工具，为所有患者提供高质量的医疗服务。

未来的医疗AI发展需要在技术创新和伦理考量之间找到平衡点，确保技术进步真正服务于人类福祉，而非加剧社会分化。这需要技术开发者、医疗专业人员、政策制定者和公众的共同努力，共同塑造一个更加公平、包容的医疗AI未来。