在人工智能技术飞速发展的今天,医疗领域正经历着前所未有的变革。大型语言模型(LLM)如Gemini和ChatGPT被广泛应用于医疗场景,从自动生成患者就诊记录到创建临床摘要,甚至辅助复杂疾病诊断。然而,一系列最新研究表明,这些AI工具可能无意中放大了医疗系统中已存在的不平等现象,对女性、黑人和亚裔患者产生负面影响。
AI医疗工具的广泛应用与潜在风险
全球各地的医院和医生正越来越多地采用AI工具来减轻工作负担并加速治疗流程。初创公司如Nabla和Heidi开发的AI医疗笔记应用可以帮助医生自动生成患者就诊转录本,突出医学相关细节,并创建临床摘要。2025年6月,微软甚至宣称其开发的AI医疗工具在诊断复杂疾病方面的成功率比人类医生高出四倍。
然而,随着这些工具的普及,研究人员开始关注其潜在的偏见问题。麻省理工学院Jameel诊所的研究发现,OpenAI的GPT-4、Meta的Llama 3以及专注于医疗的Palmyra-Med等AI模型,在为女性患者提供建议时,往往建议较低级别的护理,甚至建议一些患者在家自我治疗而非寻求专业医疗帮助。
女性患者的症状被系统性低估
研究显示,AI医疗工具存在明显的性别偏见,倾向于低估女性患者的症状严重性。伦敦经济学院的研究发现,在英国超过一半地方政府使用的Google的Gemma模型,在生成和总结案例记录时,会淡化女性相比男性所面临的身体和心理健康问题。
这种偏见可能导致女性患者获得不适当的医疗建议,延误必要的治疗。在医疗领域,女性健康问题长期面临资金不足和研究不足的问题,而AI工具的偏见可能进一步加剧这一问题。
少数族裔患者面临共情缺失
除了性别偏见外,AI医疗工具对少数族裔患者也表现出明显的共情缺失。麻省理工学院的另一项研究表明,OpenAI的GPT-4等模型在为寻求心理健康支持的黑人和亚裔患者提供回答时,表现出较低的共情水平。
"这表明一些患者可能纯粹因为模型对其种族的认知而获得支持性较低的建议,"麻省理工学院Jameel诊所的副教授Marzyeh Ghassemi指出。这种共情缺失可能导致少数族裔患者无法获得所需的情感支持和理解,进一步影响他们的治疗效果。
语言能力与医疗获取的不平等
研究还发现,AI医疗工具对患者语言表达方式的偏好可能加剧医疗获取的不平等。Ghassemi的团队发现,那些包含拼写错误、非正式语言或不确定措辞的患者信息,比格式完美的沟通内容更有可能被AI模型建议不要寻求医疗护理,即使临床内容相同。
这种情况可能使不以英语为母语或不习惯使用技术的人群处于不利地位,进一步扩大医疗获取的鸿沟。在医疗决策中,这种偏见可能导致本已处于弱势地位的患者更难获得适当的医疗服务。
AI偏见的根源:训练数据与算法设计
有害偏见问题的部分根源在于用于训练LLM的数据。通用模型如GPT-4、Llama和Gemini使用来自互联网的数据进行训练,因此这些来源的偏见会反映在模型响应中。AI开发者也可以通过在模型训练后添加防护措施来影响这种偏见的渗透。
"如果你处于任何可能让Reddit子论坛建议你健康决策的情况,我认为那不是一个安全的地方,"加州大学旧金山分校的兼职教授、AI医疗信息初创公司Open Evidence的首席医疗官Travis Zack表示。在去年的一项研究中,Zack和他的团队发现GPT-4没有考虑人口统计学疾病多样性,倾向于对某些种族、族裔和性别产生刻板印象。
研究人员警告说,AI工具可能强化医疗系统中已存在的治疗不足模式,因为健康研究的数据往往严重偏向男性,而女性健康问题,例如,面临长期资金不足和研究不足的问题。
行业回应与改进措施
面对这些研究发现,AI开发公司开始采取行动。OpenAI表示许多研究评估的是GPT-4的旧版本,自发布以来公司已经提高了准确性。该公司有团队致力于减少有害或误导性输出,特别关注健康领域。OpenAI还表示与外部临床医生和研究人员合作评估其模型,进行压力测试以识别风险。
该公司还与医生合作开发了一个基准来评估LLM在健康领域的能力,该基准考虑了不同风格、相关性和详细程度的用户查询。
Google也表示对模型偏见问题"极其重视",正在开发能够净化敏感数据集并防范偏见和歧视的隐私技术。
构建更公平的AI医疗系统
研究人员建议,减少AI医疗偏见的一种方法是首先确定不应用于训练的数据集,然后在更多样化和更具代表性的健康数据集上进行训练。
Zack表示,Open Evidence(被美国40万名医生用于总结患者病史和检索信息的公司)在其模型中使用了医学期刊、美国食品药品监督管理局的标签、健康指南和专家评论进行训练。每个AI输出都有来源引用支持。
今年早些时候,伦敦大学学院和伦敦国王学院的研究人员与英国国民健康服务体系(NHS)合作,构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据训练,用于预测可能的健康结果,如住院或心脏病发作。
"使用全国规模的数据使我们能够代表英格兰在人口统计学和疾病方面的完整状态,"UCL荣誉高级研究员、Foresight团队首席研究员Chris Tomlinson表示。尽管不完美,但Tomlinson表示它提供了比更通用数据集更好的起点。
欧洲科学家还训练了一个名为Delphi-2M的AI模型,基于英国生物银行40万参与者的匿名医疗记录,预测未来几十年对疾病的易感性。
隐私与安全的平衡
然而,使用如此大规模的真实患者数据往往引发隐私问题。NHS Foresight项目在6月被暂停,以让英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的数据保护投诉。
此外,专家警告说,AI系统经常"产生幻觉"或编造答案,这在医疗背景下可能特别有害。
未来展望:AI医疗的平衡发展
尽管存在这些挑战,麻省理工学院的Ghassemi认为AI正在为医疗保健带来巨大好处。"我希望我们开始将健康领域的模型重新集中在解决关键的健康差距上,而不是为医生已经很擅长的任务增加百分之一的性能。"
随着医疗AI技术的不断发展,解决偏见问题将成为行业健康发展的关键。通过多元化的数据训练、严格的伦理审查和持续的监测改进,AI医疗工具有潜力成为缩小而非扩大医疗不平等的有力工具。然而,这需要开发者、医疗机构和政策制定者的共同努力,确保AI技术真正服务于所有患者的健康需求,而不受性别、种族或语言能力的影响。
在追求医疗AI效率的同时,我们不能忽视公平性和包容性。只有建立在坚实伦理基础上的AI医疗系统,才能真正实现其改善全球医疗健康的潜力,为每一位患者提供公正、高质量的医疗服务。