
曾经,两个村民拜访了传说中的毛拉·纳斯尔丁。这位以犀利智慧著称的苏菲哲学家耐心听取了第一个村民的陈述,然后感叹道:"你完全正确!"接着,第二个村民也讲述了自己的故事,纳斯尔丁再次回应:"你完全正确!"一位旁观者感到困惑,插话道:"但毛拉,他们不可能都对。"纳斯尔丁停顿片刻,看着旁观者回答:"你,也完全正确!"
这则古老的寓言恰如其分地描绘了当前人工智能在医疗领域面临的困境。2025年5月,白宫"让美国再次健康"(MAHA)报告因引用多项不存在的研究而受到批评。这种虚构引用在基于大型语言模型(LLM)的生成式人工智能输出中屡见不鲜。LLM们会编造看似合理的来源、吸引人的标题甚至虚假数据来支持其结论。白宫最初曾驳斥率先报道这一事件的记者,后来才承认这些"引用错误"。
颇具讽刺意味的是,这些虚假引用被用来支持MAHA报告的主要建议之一:解决健康研究领域的"复制危机"——即科学家的发现常常无法被其他独立团队重现。
然而,MAHA报告使用幽灵证据的现象远非独特。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。一旦被发现,律师们不得不向法官解释虚构的案例、引用和判决是如何进入审判过程的。
尽管这些问题已被广泛认识,但上月发布的MAHA路线图仍指示卫生与公众服务部优先考虑AI研究,以"...协助更早的诊断、个性化治疗方案、实时监测和预测干预..."。如果我们相信这些技术上的"幻觉"可以通过版本更新轻松修复,那么这种在医疗领域如此多方面嵌入AI的热情或许可以理解。但正如行业本身所承认的,这些机器中的"幽灵"可能无法消除。
AI在医疗研究中面临的三大挑战
AI对医疗研究构成的挑战是多方面的:幻觉、谄媚和黑盒问题。理解这些现象对研究科学家、政策制定者、教育工作者和普通公民都至关重要。如果对这些挑战缺乏认识,随着AI系统越来越多地被用于塑造诊断、保险理赔、健康素养、研究和公共政策,我们将面临被欺骗的风险。
幻觉现象

幻觉是这样运作的:当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成一串基于其训练数据统计上可能合理的词语。当前的AI模型会完成这项任务,即使它们的训练数据不完整或存在偏见,无论它们是否有能力回答,都会填补空白。这些幻觉可能以不存在的研究、错误信息甚至从未发生过的临床互动形式出现。LLM强调产生权威性的语言,使其虚假输出披上了真理的外衣。
谄媚倾向
随着人类模型训练者微调生成式AI的响应,他们倾向于优化和奖励那些符合其先验信念的AI系统回应,从而导致谄媚行为。人类偏见似乎会产生AI偏见,而AI的人类用户则延续了这一循环。结果是,AI往往倾向于取悦用户而非提供真实答案,常常试图强化查询中的偏见。
最近的一个例子发生在4月,当OpenAI取消ChatGPT更新时,因为它过于谄媚——用户证明它过于迅速和热情地同意了查询中嵌入的假设。谄媚和幻觉常常相互作用;那些旨在取悦用户的系统更有可能编造数据以达到用户偏好的结论。
黑盒问题

纠正幻觉、谄媚和其他LLM失误是繁琐的,因为人类观察者并不总能确定AI平台如何得出其结论。这就是"黑盒"问题。在概率数学背后,它甚至在测试假设吗?它使用什么方法推导出答案?与传统的计算机代码或科学方法论框架不同,AI模型通过数十亿次计算运行。看到一些结构良好的输出,人们很容易忘记底层过程无法审查,且与人类的问题解决方法截然不同。
当人们无法识别计算出错的地方时,这种不透明性可能变得危险,使得不可能纠正决策过程中的系统性错误或偏见。在医疗保健领域,当医生和患者都无法解释导致医疗干预的推理序列时,这个黑盒引发了关于问责制、责任和信任的问题。
AI与医疗研究的交织
这些AI挑战可能加剧传统健康研究出版物中已有的错误和偏见来源。其中几个来源源于人类寻找和发表有意义、积极结果的天然动机。记者希望报道关联性,例如圣约翰草能改善情绪(可能有用)。没有人会发表一篇题为"补充剂没有显著效果"的文章。
当研究人员使用研究设计不仅测试单一假设而是多个假设时,问题会加剧。统计支持研究的一个怪癖是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。
AI通过其在大数据集上 relentless 地测试假设的能力,有可能放大这些巧合。过去,研究助手可以使用现有数据测试10到20个最可能的假设;现在,该助手可以放任AI在无人监督的情况下测试数百万个可能或不可能的假设。这几乎保证了某些结果将符合统计显著性标准,无论数据中是否包含任何真实的生物学效应。
AI不知疲倦地调查数据的能力,加上其日益增强的构建权威性叙述的能力,扩大了将编造或偏见确认的错误提升到集体公众意识中的可能性。
未来之路:如何应对AI医疗挑战
如果你阅读AI名流的著作,社会似乎即将迎来超级智能,这将把每一个令人困扰的社会难题转变为微不足道的谜题。虽然这极不可能,但AI确实在一些健康应用中展示了潜力,尽管有其局限性。不幸的是,它现在正被迅速部署到整个行业,即使在它没有先前记录的领域也是如此。
这种速度可能让我们几乎没有时间反思安全部署所需的问责制。谄媚、幻觉和AI的黑盒与健康研究中现有的偏见相结合时,都是非同小可的挑战。如果人们不能轻易理解当前AI工具(通常包含多达1.8万亿个参数)的内部工作原理,他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。
历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人群健康数据的能力,但它们侵蚀了医患互动,并成为医生倦怠的来源。最近远程医疗的激增扩大了护理的可及性,但也促进了没有身体检查的低质量互动。
在健康政策和研究中使用AI也不例外。明智地部署,它可以改变医疗行业,带来更健康的人口和难以想象的突破(例如通过加速药物发现)。但如果不将其嵌入新的专业规范和实践,它有可能产生无数有缺陷的线索和虚假信息。
以下是我们对AI和医疗复制危机的一些潜在解决方案:
- 能够在输出中承认不确定性的临床专用模型
- 增加透明度,要求在研究中披露AI模型的使用
- 加强研究人员、临床医生和记者如何评估和压力测试AI衍生结论的培训
- 在使用AI工具之前预先注册假设和分析计划
- AI审计跟踪
- 限制跨用户查询谄媚倾向的特定AI全局提示
结论:平衡AI创新与医疗安全
无论部署何种解决方案,我们需要解决此处描述的故障点,才能充分实现AI在健康研究中的潜力。公众、AI公司和健康研究人员必须成为这一旅程的积极参与者。毕竟,在科学领域,不可能每个人都对。
AI在医疗领域的应用既充满希望又伴随着风险。我们需要在拥抱创新的同时,保持警惕和批判性思维。通过建立适当的监管框架、提高透明度、加强专业培训,我们有可能引导AI技术朝着有益于人类健康的方向发展,同时避免其潜在陷阱。这不仅关乎技术进步,更关乎我们对科学诚信和患者安全的承诺。









