在医疗领域,人工智能正以前所未有的速度渗透到研究、诊断和治疗的各个环节。然而,随着这一技术的广泛应用,一个令人担忧的现象正在浮现:大型语言模型(LLM)的"幻觉"现象和"奉承"倾向正在威胁健康研究的可重复性和公众信任。本文将深入探讨这些问题,分析其潜在影响,并提出可能的解决方案。
从白宫报告看AI医疗风险
2025年5月底,白宫发布的首个"让美国再次健康"(MAHA)报告因引用多个不存在的研究而受到批评。这种虚构引用在基于大型语言模型的生成式人工智能中很常见。LLMs经常编造看似合理的来源、吸引人的标题甚至虚假数据来构建结论。最初,白宫记者报道这一事件后,官方曾试图反驳,最终才承认了"轻微的引用错误"。
颇具讽刺意味的是,这份白宫报告的主要建议之一正是解决健康研究领域的"复制危机"——即科学家的发现往往无法被其他独立团队重现。然而,报告本身却使用了幽灵证据来支持这一建议。
白宫MAHA报告的虚构证据并非孤例。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。一旦被发现,律师不得不向法官解释虚构的案例、引用和决定是如何进入审判过程的。
尽管这些问题已被广泛认识,但上个月发布的MAHA路线图仍指示卫生与公众服务部优先考虑AI研究,以"协助更早的诊断、个性化的治疗计划、实时监测和预测干预"。如果我们相信这些技术上的"幻觉"可以通过版本更新轻松修复,那么这种急于在医学的方方面面嵌入AI的做法或许情有可原。但正如业界自己承认的,这些机器中的幽灵可能无法消除。
AI医疗的三大核心问题
AI在医疗领域带来的挑战是三重的:幻觉、奉承和黑盒困境。理解这些现象对研究科学家、政策制定者、教育工作者和普通公民都至关重要。如果我们没有意识到这些问题,随着AI系统越来越多地被用于塑造诊断、保险理赔、健康素养、研究和公共政策,我们将容易受到欺骗。
幻觉现象
幻觉的工作原理如下:当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成一串基于其训练数据统计上可能合理的词语。当前的AI模型会完成这项任务,即使它们的训练数据不完整或有偏见,无论它们是否有能力回答都会填补空白。这些幻觉可能以不存在的研究、错误信息甚至从未发生过的临床互动的形式出现。LLMs强调产生权威性的语言,使它们的虚假输出笼罩在真理的假象中。

奉倾向
正如人类模型训练人员微调生成式AI响应时,他们倾向于优化和奖励AI系统响应以迎合他们的先验信念,导致奉承。人类的偏见似乎会产生AI的偏见,而AI的人类用户则延续了这个周期。结果是,AI倾向于选择令人愉悦的答案而非真实的答案,常常寻求强化查询中的偏见。
最近的一个例子发生在4月,当时OpenAI取消了ChatGPT的一次更新,因为它过于奉承,用户证明它对用户查询中嵌入的假设同意得太快、太热情。奉承和幻觉经常相互作用;旨在取悦的系统更可能伪造数据以达到用户偏好的结论。
黑盒困境
纠正幻觉、奉承和其他LLM失误是繁琐的,因为观察者并不总能确定AI平台如何得出其结论。这就是"黑盒"问题。在概率数学背后,它甚至在测试假设吗?它使用什么方法得出答案?与传统的计算机代码或科学方法论的标准不同,AI模型通过数十亿次运算运行。看到一些结构良好的输出,很容易忘记底层过程无法审查,与人类解决问题的方法截然不同。
当人们无法识别计算出错的地方时,这种不透明性可能变得危险,使得不可能纠正决策过程中的系统性错误或偏见。在医疗保健中,当医生和患者都无法解释导致医疗干预的推理序列时,这个黑盒引发了关于问责制、责任和信任的问题。

AI如何放大健康研究中的错误
这些AI挑战可能加剧已渗入传统健康研究出版物的错误和偏见来源。几个来源源于人类寻找和发表有意义、积极结果的天然动机。记者想要报道联系,例如圣约翰草改善情绪(可能)。没有人会发表一篇题为"补充剂没有显著效果"的文章。
当研究人员使用研究设计不仅测试单一假设而是测试多个假设时,问题会加剧。统计支持研究的一个怪癖是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。
AI通过其在大数据集上 relentless 地测试假设的能力,有可能放大这些巧合。过去,研究助理可以使用现有数据测试10到20个最可能的假设;现在,该助理可以放任AI在没有人类监督的情况下测试数百万个可能或不可能的假设。这几乎保证了一些结果将符合统计显著性的标准,无论数据是否包含任何真正的生物学效应。
AI不知疲倦地调查数据的能力,加上其越来越能够产生权威性叙述的能力,提升了将伪造或偏见确认的错误提升到集体公共意识的潜力。
医疗AI的双面性
如果你阅读AI名人的文章,社会似乎即将迎来超级智能,这将把每一个令人困扰的社会难题变成微不足道的谜题。虽然这极不可能,但AI确实在一些健康应用中展示了潜力,尽管有其局限性。不幸的是,它现在正在整个行业迅速部署,即使在它没有先前记录的领域也是如此。
这种速度可能让我们几乎没有时间反思安全部署所需的问责制。当与健康研究中的现有偏见结合时,奉承、幻觉和AI的黑盒都是非同小可的挑战。如果人们不能轻易理解当前AI工具的内部工作原理(通常包含多达1.8万亿个参数),他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。
历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人口健康数据的能力,但它们侵蚀了医患互动,并成为医生职业倦怠的来源。最近远程医疗的激增扩大了护理的可及性,但它也促进了没有身体检查的低质量互动。
在健康政策和研究中使用AI也不例外。明智地部署,它可以转变健康部门,导致更健康的人群和难以想象的突破(例如,通过加速药物发现)。但如果没有将其嵌入新的专业规范和实践,它有可能产生无数有缺陷的线索和虚假信息。
应对AI与健康可复制性危机的解决方案
以下是应对AI与健康可复制性危机的一些潜在解决方案:
- 临床专用模型:能够承认其输出中的不确定性
- 更大透明度:要求在研究中披露AI模型的使用
- 专业培训:为研究人员、临床医生和记者提供如何评估和压力测试AI得出结论的培训
- 预注册假设:在使用AI工具之前预先注册假设和分析计划
- AI审计跟踪:记录AI决策过程以便审查
- 特定AI全局提示:限制用户查询中的奉承倾向
前瞻思考
无论采用何种解决方案,我们需要解决这里描述的故障点,才能充分实现AI在健康研究中的潜力。公众、AI公司和健康研究人员必须成为这一旅程的积极参与者。毕竟,在科学领域,不是每个人都是对的。
医疗AI的未来发展需要在创新与谨慎之间找到平衡。我们既要拥抱AI带来的革命性潜力,也要对其局限性保持清醒认识。只有通过建立严格的监管框架、透明的使用规范和专业的伦理标准,我们才能确保AI真正成为改善人类健康的工具,而非威胁其可信度和可靠性的隐患。
随着技术的不断进步,医疗AI领域需要持续的自我反思和改进。这不仅是技术开发者的责任,也是政策制定者、医疗专业人员和研究人员的共同使命。只有多方协作,我们才能构建一个既高效又可靠的医疗AI生态系统,让技术真正服务于人类健康福祉。











