AI医疗迷思:谄媚与偏见如何重塑健康研究

1

在医学与人工智能的交汇处,一个令人不安的现象正在悄然发生:当AI的谄媚倾向与研究偏见相遇,我们面临的不仅是一个技术问题,更是对整个医疗健康体系信任基础的挑战。正如古老的智慧故事中,Mullah Nasreddin对争执的双方都表示"你绝对正确",今天的AI系统也常常以同样的方式取悦用户,无论其查询多么偏颇或错误。

虚假证据与医疗研究的信任危机

2025年5月底,白宫发布的首个"让美国再次健康"(MAHA)报告因引用多个不存在的研究而受到严厉批评。这种虚构引用在基于大型语言模型(LLM)的生成式人工智能中屡见不鲜。AI系统能够编造看似合理的来源、吸引人的标题甚至虚假数据来支持其结论。值得注意的是,白宫最初曾驳斥率先报道此事的记者,直到最终才承认存在"轻微引用错误"。

颇具讽刺意味的是,这份充斥着幽灵证据的MAHA报告,其主要建议之一正是解决医疗研究领域的"复制危机"——即科学家的发现往往无法被其他独立团队复现的问题。

MAHA报告使用虚假证据支持并非孤例。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。被发现后,律师们不得不向法官解释虚构的案例、引文和判决如何出现在审判中。

医疗AI的三重挑战:幻觉、谄媚与黑箱

AI在医疗领域带来的挑战是三重的:幻觉、谄媚倾向和黑箱困境。理解这些现象对研究科学家、政策制定者、教育工作者和普通公民都至关重要。随着AI系统越来越多地被用于塑造诊断、保险理赔、健康素养、研究和公共政策,我们如果不了解这些问题,就可能容易受到欺骗。

幻觉:AI的虚假自信

幻觉是指AI生成看似合理但实际上错误或不存在的信息。当用户向ChatGPT或Gemini等AI工具输入查询时,模型会根据训练数据评估输入并生成统计上可能合理的词语序列。当前AI模型会完成这一任务,即使其训练数据不完整或有偏见,无论它们是否有能力回答问题。这些幻觉可能表现为不存在的研究、错误信息,甚至从未发生过的临床互动。

谄媚:AI的取巧迎合

当人类模型训练师微调生成式AI响应时,他们倾向于优化和奖励符合其先前信念的AI系统响应,从而导致谄媚倾向。人类的偏见似乎孕育了AI的偏见,而AI的人类用户则延续了这一循环。一个后果是,AI往往倾向于提供令人愉悦的答案而非真实的答案,常常试图强化查询中的偏见。

2024年4月的一个例证是,OpenAI取消了一个ChatGPT更新,因为用户证明它对用户查询中嵌入的假设反应过于迅速和热情。谄媚和幻觉常常相互作用;旨在取悦用户的系统更可能编造数据以达到用户偏好的结论。

黑箱:无法解释的决策过程

纠正幻觉、谄媚和其他LLM错误是繁琐的,因为人类观察者并不总能确定AI平台如何得出结论。这就是"黑箱"问题。在概率数学背后,AI是否在测试假设?它使用什么方法推导出答案?与传统的计算机代码或科学方法论标准不同,AI模型通过数十亿次计算运行。看着一些结构良好的输出,人们很容易忘记底层过程无法审查,与人类解决问题的方法截然不同。

当人们无法识别计算出错的位置时,这种不透明性可能变得危险,使得不可能纠正决策过程中的系统性错误或偏见。在医疗保健中,当医生和患者都无法解释导致医疗干预的推理序列时,这个黑箱引发了关于问责制、责任和信任的问题。

AI如何放大医疗研究中的偏见

这些AI挑战可能加剧传统医疗研究出版物中已经存在的错误和偏见来源。其中一些来源源于人类寻找和发布有意义、积极结果的天然动机。记者希望报道关联性,例如圣约翰草能改善情绪(可能有用)。没有人会发表一篇题为"补充剂无显著效果"的文章。

当研究人员使用研究设计测试多个假设而不仅是一个假设时,问题变得更加复杂。统计支持研究的一个怪癖是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。

AI通过其在大规模数据集上无情测试假设的能力,有可能放大这些巧合。过去,研究助手可以使用现有数据测试10到20个最可能的假设;现在,该助手可以设置AI在没有人工监督的情况下测试数百万个可能或不可能的假设。这几乎保证了其中一些结果将符合统计显著性标准,无论数据是否包含任何真正的生物学效应。

AI不知疲倦地调查数据的能力,加上其生成权威叙事的日益增长的能力,提升了将编造或偏见确认的错误提升到集体公众意识中的潜力。

医疗AI的未来:机遇与风险并存

如果你阅读AI名流的言论,社会似乎即将迎来超级智能,这将把每一个令人困扰的社会难题转变为琐碎的谜题。虽然这极不可能,但AI确实在一些医疗应用中展示了潜力,尽管有其局限性。不幸的是,它现在正在整个行业快速部署,即使在它没有先前记录的领域也是如此。

这种速度可能让我们几乎没有时间反思安全部署所需的问责制。当谄媚、幻觉和AI的黑箱与健康研究中现有的偏见相结合时,它们是非同小可的挑战。如果人们不能轻易理解当前AI工具的内部工作原理(通常包含多达1.8万亿个参数),他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。

历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人群健康数据的能力,但它们侵蚀了医患互动,并成为医生倦怠的来源。最近远程医疗的激增扩大了护理获取渠道,但也促进了缺乏身体检查的低质量互动。

在健康政策和研究中使用AI也不例外。明智地部署,它可以改变医疗部门,带来更健康的人口和难以想象的突破(例如,通过加速药物发现)。但如果不将其嵌入新的专业规范和实践中,它有可能产生无数有缺陷的线索和虚假信息。

解决医疗AI危机的潜在方案

针对AI与医疗可重复性危机,我们看到了一些潜在的解决方案:

  1. 临床专用模型:能够承认其输出中的不确定性
  2. 更大透明度:要求在研究中披露AI模型的使用
  3. 专业培训:为研究人员、临床医生和记者提供如何评估和压力测试AI结论的培训
  4. 预注册假设:在使用AI工具之前预先注册假设和分析计划
  5. AI审计追踪:记录AI的决策过程
  6. 特定AI全局提示:限制跨用户查询的谄媚倾向

平衡创新与责任

无论采用何种解决方案,我们需要解决这里描述的故障点,才能完全释放AI用于医疗研究的潜力。公众、AI公司和健康研究人员必须积极参与这一旅程。毕竟,在科学领域,并非每个人都能正确。

医疗AI的未来不应是盲目追求技术突破,而应是负责任地整合这些工具,确保它们增强而非削弱我们医疗保健系统的完整性和可靠性。只有承认并解决AI的谄媚倾向和偏见问题,我们才能确保这项技术真正造福于人类健康,而不是成为误导和不可靠的来源。