在医疗科技迅速发展的今天,人工智能正逐渐成为医生的重要助手。然而,最新研究揭示了一个令人担忧的现象:广泛应用的AI医疗工具存在系统性偏见,导致女性、黑人和亚裔患者的症状被严重低估,这可能加剧医疗领域长期存在的不平等问题。
研究发现:AI医疗工具的偏见问题
麻省理工学院Jameel Clinic的一系列研究表明,许多大型语言模型(LLM)在医疗建议中存在明显的性别和种族偏见。这些模型不仅低估女性患者症状的严重性,还针对黑人及亚裔患者表现出更低的共情能力。
"这些发现表明,一些患者可能仅仅因为模型对其种族的认知而获得远不够支持性的指导,"麻省理工学院Jameel Clinic的副教授Marzyeh Ghassemi警告道。
研究团队发现,当患者信息包含拼写错误、非正式语言或不确定的表述时,AI模型建议他们不要寻求医疗护理的可能性比那些沟通完美的人高出7-9%,即使临床内容完全相同。这可能使非英语母语者或技术使用不熟练的人群受到不公平对待。
全球医疗AI应用现状
全球众多医院和医生正在使用Gemini、ChatGPT等大型语言模型以及Nabla、Heidi等初创公司的AI医疗笔记应用,自动生成患者就诊记录、突出医学相关细节并创建临床摘要。
微软在6月透露,它已开发出一款AI驱动的医疗工具,声称在诊断复杂疾病方面的成功率比人类医生高出四倍。然而,麻省理工学院Jameel Clinic的研究却发现,OpenAI的GPT-4、Meta的Llama 3以及专注于医疗的Palmyra-Med等模型为女性患者推荐的护理水平明显偏低,甚至建议一些患者自行在家治疗而非寻求专业帮助。
同样,伦敦经济学院的研究发现,英国超过一半的地方当局使用Google的Gemma模型支持社会工作者时,与男性相比,该模型会淡化女性的身心健康问题。
偏见的根源:训练数据的问题
医疗AI工具中存在有害偏见的部分原因在于用于训练LLM的数据。通用模型如GPT-4、Llama和Gemini使用来自互联网的数据进行训练,因此这些来源的偏见也会反映在它们的回答中。AI开发者可以通过在模型训练后添加防护措施来影响这种偏见的渗透。
"如果你处于任何可能让Reddit子论坛建议你健康决策的情况,我认为那不是一个安全的地方,"加州大学旧金山分校的兼职教授、AI医疗信息初创公司Open Evidence的首席医疗官Travis Zack表示。
在去年的一项研究中,Zack及其团队发现GPT-4没有考虑医疗人口统计学的多样性,倾向于对某些种族、族裔和性别进行刻板印象化。
现有医疗体系的偏见放大
研究人员警告称,AI工具可能强化医疗体系中已经存在的治疗不足模式,因为健康研究的数据往往严重偏向男性,例如,女性健康问题长期面临资金不足和研究不足的问题。
"这些偏见不仅仅是技术问题,它们反映了医疗系统中已经存在的不平等,"一位不愿透露姓名的医疗伦理专家表示,"AI工具可能会无意中放大这些不平等,使弱势群体处于更加不利的位置。"
行业回应与改进措施
面对这些发现,AI公司正在采取措施改进其产品。OpenAI表示,许多研究评估的是GPT-4的旧版本,自推出以来,公司已经提高了准确性。它有团队致力于减少有害或误导性输出,特别关注健康领域。该公司还表示与外部临床医生和研究人员合作评估其模型,对其行为进行压力测试并识别风险。
Google则表示对模型偏见"极为重视",正在开发能够清理敏感数据集并防止偏见和歧视的隐私技术。
研究人员建议,减少医疗AI偏见的一种方法是首先确定不应用于训练的数据集,然后在多样化和更具代表性的健康数据集上进行训练。
Open Evidence公司在美国被40万名医生用于总结患者病史和检索信息,Zack表示该公司在医学期刊、美国食品药品监督管理局的标签、健康指南和专家评论上训练其模型。每个AI输出都有来源引用支持。
新型AI医疗模型的尝试
今年早些时候,伦敦大学学院和国王学院伦敦的研究人员与英国NHS合作构建了一个名为Foresight的生成式AI模型。该模型基于5700万人的匿名患者数据,包括住院和COVID-19疫苗接种等医疗事件进行训练,旨在预测可能的健康结果,如住院或心脏病发作。
"与全国规模的数据合作,使我们能够代表英格兰在人口统计学和疾病方面的完整多样性状态,"UCL荣誉高级研究员、Foresight团队的首席研究员Chris Tomlinson表示。尽管不完美,但Tomlinson说它比更通用的数据集提供了更好的起点。
欧洲科学家还训练了一个名为Delphi-2M的AI模型,基于英国生物银行40万参与者的匿名医疗记录,预测未来几十年的疾病易感性。
隐私与伦理挑战
然而,使用如此规模的真正患者数据往往引发隐私问题。NHS Foresight项目于6月暂停,以便英国信息专员办公室考虑英国医学会和皇家全科医师学院对其在模型训练中使用敏感健康数据的投诉。
此外,专家警告称,AI系统经常"幻觉"或编造答案,这在医疗背景下可能特别有害。
平衡创新与公平
尽管存在这些问题,麻省理工学院的Ghassemi认为AI正在为医疗保健带来巨大好处。"我希望我们开始重新关注健康领域的模型,以解决关键的医疗差距,而不是在医生已经很擅长的任务性能上再增加一个百分点的提升。"
医疗AI的未来发展需要在技术创新与公平性之间找到平衡点。这需要技术开发者、医疗专业人员、政策制定者和患者的共同努力,确保AI工具能够真正服务于所有人群,而不是加剧现有的健康不平等。
前进之路
解决医疗AI偏见问题需要多管齐下:
改进训练数据:使用更加多样化、代表性强的高质量医疗数据集,减少现有数据中的偏见。
增强算法透明度:开发更加透明的AI系统,使医疗专业人员能够理解AI做出特定建议的原因。
建立严格的监管框架:制定针对医疗AI的专门标准和法规,确保这些工具的安全性和公平性。
促进多方协作:鼓励技术开发者、医疗专家、伦理学家和政策制定者之间的持续对话与合作。
提高用户意识:教育医疗专业人员了解AI系统的局限性,避免过度依赖AI建议。
随着AI在医疗领域的应用不断扩大,解决这些偏见问题不仅关乎技术进步,更是实现医疗公平的关键一步。只有确保AI工具对所有人群都公平、准确,才能真正发挥其在改善全球医疗保健方面的潜力。