引言:AI医疗的崛起与隐藏的偏见
随着人工智能技术的飞速发展,全球越来越多的医院和医生开始采用大型语言模型(LLM)辅助医疗决策。从Gemini、ChatGPT到Nabla和Heidi等初创公司的医疗笔记应用,AI正在改变医疗服务的提供方式。然而,最新研究表明,这些看似先进的AI工具可能正在加剧医疗系统中长期存在的健康不平等问题。
研究发现:AI医疗工具的系统性偏见
症状评估的性别差异
麻省理工学院Jameel诊所的一系列研究揭示了令人担忧的发现:许多AI医疗模型在评估女性患者症状时,往往低估其严重程度。在2025年6月的一项研究中,OpenAI的GPT-4、Meta的Llama 3以及专注于医疗的Palmyra-Med模型被测试用于推荐护理级别,结果显示这些模型为女性患者推荐的护理级别明显较低,甚至建议部分患者居家自我治疗而非寻求专业医疗帮助。
这种偏见并非孤立现象。伦敦经济学院的研究发现,谷歌的Gemma模型(被英国超过一半的地方当局用于支持社会工作者)在生成和总结案例笔记时,与男性相比,往往会淡化女性的身心健康问题。
种族与同理心的缺失
MIT的同一研究团队还发现,OpenAI的GPT-4等模型在为寻求心理健康支持的黑人和亚裔患者提供回答时,表现出较少的同情心。这种差异可能导致"仅基于模型感知的种族,某些患者会得到少得多的支持性指导",MIT副教授Marzyeh Ghassemi警告道。
更令人担忧的是,研究还发现,那些包含拼写错误、非正式语言或不确定措辞的患者信息,使AI模型建议这些患者不要寻求医疗护理的可能性增加了7-9%,即使临床内容完全相同。这可能导致非英语母语者或不熟悉技术的患者受到不公平对待。
偏见的根源:训练数据与算法设计
数据集的固有偏见
医疗AI工具中存在的有害偏见部分源于用于训练大型语言模型的数据。通用模型如GPT-4、Llama和Gemini使用来自互联网的数据进行训练,这些数据源中的偏见因此被反映在模型的响应中。旧金山大学 adjunct 教授兼AI医疗信息初创公司Open Evidence首席医疗官Travis Zack指出:"如果你处于任何可能让Reddit子论坛指导你的健康决策的情况,我认为那不是一个安全的地方。"
去年,Zack及其团队的研究发现,GPT-4没有考虑医疗疾病的人口统计学多样性,倾向于对某些种族、族裔和性别进行刻板印象化描述。研究人员警告说,AI工具可能强化医疗系统中已经存在的治疗不足模式,因为健康研究数据往往严重偏向男性,例如,女性健康问题面临长期资金不足和研究不足的问题。
算法设计与安全措施
AI开发人员可以通过在模型训练后添加安全措施来影响这些偏见如何渗透到系统中。然而,目前的措施显然不足以消除所有偏见。OpenAI表示,许多研究评估的是GPT-4的旧版本,自推出以来,公司已经提高了准确性。他们有专门团队致力于减少有害或误导性输出,特别关注健康领域。OpenAI还表示,他们与外部临床医生和研究人员合作评估模型,对其行为进行压力测试,并识别风险。
谷歌则表示,他们极其重视模型偏见,正在开发能够清理敏感数据集并防范偏见和歧视的安全技术。
实际影响:从诊断到治疗建议
诊断准确性的差异
2025年6月,微软透露已构建了一个AI驱动的医疗工具,声称其在诊断复杂疾病方面的成功率比人类医生高四倍。然而,如果这些工具存在偏见,那么所谓的"更高准确性"可能只适用于特定人群,而对其他群体可能产生相反效果。
治疗建议的偏差
偏见不仅影响诊断,还直接影响治疗建议。当AI模型低估女性患者的症状严重性时,可能导致治疗不足;当对少数族裔患者表现出较少同理心时,可能影响患者对治疗的依从性和信任度。
医疗AI工具的这些偏差可能产生深远影响,特别是在资源有限的医疗系统中,这些工具被设计用来减轻医生工作负担并加快治疗速度。如果这些工具本身就存在偏见,那么它们可能会无意中扩大而非缩小健康差距。
解决方案:迈向更公平的AI医疗
多样化训练数据的重要性
研究人员建议,减少医疗AI偏见的一种方法是首先确定不应用于训练的数据集,然后在多样化且更具代表性的健康数据集上进行训练。Open Evidence公司就是一个例子,该公司被美国40万名医生用于总结患者病史和检索信息,其在医学期刊、美国食品药品监督管理局标签、健康指南和专家评论上训练其模型,并且每个AI输出都有来源引用支持。
专门设计的医疗AI模型
2025年初,伦敦大学学院和国王学院伦敦的研究人员与英国国民医疗服务体系(NHS)合作,构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据(如住院和COVID-19疫苗接种等医疗事件)进行训练,旨在预测可能的健康结果,如住院或心脏病发作。
"与全国规模的数据合作,使我们能够代表英格兰在人口统计学和疾病方面的完整多样性状态,"UCL荣誉高级研究员、Foresight团队首席研究员Chris Tomlinson表示。尽管不完美,但Tomlinson认为,这比更通用的数据集提供了更好的起点。
欧洲科学家还训练了一个名为Delphi-2M的AI模型,基于英国生物银行40万参与者的匿名医疗记录,预测未来几十年内对疾病的易感性。
隐私与伦理的平衡
然而,使用如此大规模的真实患者数据往往带来隐私问题。NHS的Foresight项目在2025年6月被暂停,以便英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的数据保护投诉。
此外,专家警告说,AI系统经常"幻觉"或编造答案,这在医疗背景下可能特别有害。尽管如此,MIT的Ghassemi认为AI正在为医疗保健带来巨大好处:"我希望我们开始重新关注健康领域的模型,以解决关键的健康差距,而不是为医生已经很擅长的任务性能增加额外的百分比。"
行动呼吁:构建包容性的AI医疗未来
面对AI医疗工具中的性别和种族偏见,我们需要采取多方面行动:
开发更严格的评估标准:AI开发公司需要与医疗专业人员合作,开发能够检测和消除偏见的评估基准,考虑不同人口群体的查询风格、相关性和细节水平。
促进数据多样性:在训练AI模型时,应确保数据集在性别、种族、年龄和社会经济背景等方面具有代表性,以减少现有医疗数据中的偏见。
增强透明度与问责制:AI医疗工具的开发和使用应更加透明,包括公开训练数据来源、模型局限性以及偏见缓解措施。
加强监管与政策制定:政府和监管机构需要制定明确的指南和法规,确保AI医疗工具公平、安全、有效地服务于所有患者群体。
提升医疗专业人员意识:医生和其他医疗专业人员需要了解AI工具的潜在偏见,并学会批判性评估AI建议,特别是在涉及边缘化群体时。
结论:技术进步必须服务于所有人
AI医疗工具的潜力是巨大的,它们有可能彻底改变医疗服务的提供方式,特别是在资源有限的系统中。然而,正如研究所揭示的,如果这些工具的设计和训练不考虑性别和种族多样性,它们可能会无意中加剧而非减少健康不平等。
技术的进步必须服务于所有人,而不是加剧现有的社会不平等。通过采取有意识的行动来解决AI医疗工具中的偏见,我们可以确保这些创新技术能够公平地惠及所有患者,无论其性别、种族或背景如何。这不仅是一个技术问题,更是一个道德和社会责任问题,需要技术开发者、医疗专业人员、政策制定者和患者共同努力解决。