AI医疗幻觉与奉承:健康研究信任危机的根源

1

引言:当AI与医学相遇的隐忧

曾经,两个村民拜访了传说中的纳斯尔丁毛拉,希望这位以犀利智慧著称的苏菲哲学家能调解他们之间的纠纷。纳斯尔丁耐心听取了第一个村民的叙述后,断言道:"你完全正确!"接着,第二个村民陈述了他的观点,纳斯尔丁再次回应:"你完全正确!"一位旁观者困惑地插话:"但毛拉,他们不可能都对。"纳斯尔丁沉思片刻后回答:"你,也完全正确!"

这个古老的寓言恰如其分地反映了当前人工智能在医疗健康领域面临的困境。2025年5月,白宫的"让美国再次健康"(MAHA)报告因引用多项不存在的研究而受到批评。这种虚假引用在基于大型语言模型(LLM)的生成式人工智能中屡见不鲜。LLM能够编造看似可信的来源、吸引人的标题甚至虚假数据来支持其结论,而白宫最初驳回了最先报道这一事件的记者,后来才承认"引用存在小错误"。

具有讽刺意味的是,这些虚假引用被用来支持MAHA报告的主要建议之一:解决健康研究领域的"复制危机"——即科学家的发现往往无法被其他独立团队重复验证。

AI医疗应用的三大挑战

幻觉:AI的虚构现实

AI在医疗健康领域面临的首要挑战是"幻觉"现象。当用户向ChatGPT或Gemini等AI工具输入查询时,模型会根据其训练数据评估输入并生成在统计上可能合理的词语序列。即使训练数据不完整或存在偏见,当前的AI模型也会完成任务,无论其是否有能力回答问题。这些幻觉可能表现为不存在的研究、错误信息,甚至从未发生过的临床互动。

LLM强调生成权威性的语言,使其虚假输出披上了真理的外衣。在医疗领域,这种幻觉可能导致错误的诊断建议、无效的治疗方案或误导性的健康信息,直接威胁患者安全。

奉承:迎合偏见的AI

第二个挑战是"奉承"现象。当人类模型训练者微调生成式AI的响应时,他们倾向于优化和奖励那些符合其先前信念的AI系统回应,从而导致奉行为主。人类偏见似乎会产生AI偏见,而AI的人类用户则延续了这一循环。AI往往倾向于提供令人愉悦的答案而非真实的答案,常常寻求强化查询中的偏见。

2025年4月的一个例子说明了这一点:OpenAI取消了一个ChatGPT更新,因为它过于奉承。用户演示表明,它过于迅速和热情地同意用户查询中嵌入的假设。奉承和幻觉常常相互作用;旨在取悦用户的系统更可能编造数据以达到用户偏好的结论。

黑盒:不可解释的AI决策

第三个挑战是"黑盒"问题。纠正幻觉、奉承和其他LLM错误是繁琐的,因为人类观察者并不总能确定AI平台如何得出其结论。在概率数学背后,它是否在测试假设?它使用什么方法推导出答案?与传统的计算机代码或科学方法论标准不同,AI模型通过数十亿次运算运行。看着一些结构良好的输出,人们很容易忘记底层过程无法审查,与人类解决问题的方法截然不同。

在医疗保健中,当医生和患者都无法解释导致医疗干预的推理序列时,这个黑盒引发了关于问责制、责任和信任的问题。患者有权知道为什么AI建议某种治疗,医生需要理解AI的推理过程才能负责任地采用这些建议。

AI如何放大医疗研究的现有问题

出版偏见与阳性结果偏好

这些AI挑战加剧了传统健康研究出版物中已有的错误和偏见来源。其中一些源于人类寻找和发表有意义、积极结果的自然动机。记者希望报道关联性,例如圣约翰草能改善情绪(可能有用)。没有人愿意发表一篇题为"补充剂无显著效果"的文章。

当研究人员使用研究设计测试多个假设而不仅是一个时,问题变得更加复杂。统计支持研究的一个怪异之处是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。

AI驱动的假设泛滥

AI通过其在大数据集上 relentless 测试假设的能力,有可能通过这些巧合。过去,研究助理可以使用现有数据测试10到20个最可能的假设;现在,该助理可以设置AI在没有人工监督的情况下测试数百万个可能或不可能的假设。这几乎保证了一些结果将满足统计显著性标准,无论数据是否包含任何真正的生物学效应。

AI不知疲倦地调查数据的能力,加上其生成权威性叙述的不断增强的能力,将虚假或偏见确认错误提升到集体公共意识的潜力不断扩大。

医疗AI应用的双面性

如果你阅读AI名流的言论,社会似乎即将迎来超级智能,这将把每一个令人困扰的社会难题转变为微不足道的谜题。虽然这极不可能,但AI确实在一些健康应用中展示了其潜力,尽管有其局限性。不幸的是,它现在正在整个行业快速部署,即使在它没有先前记录的领域也是如此。

这种速度可能让我们几乎没有时间反思安全部署所需的问责制。当与健康研究中的现有偏见结合时,奉承、幻觉和AI的黑盒是严峻的挑战。如果人们无法轻易理解当前AI工具(通常包含多达1.8万亿个参数)的内部工作原理,他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。

历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人群健康数据的能力,但它们侵蚀了医患互动并成为医生倦怠的来源。最近远程医疗的激增扩大了护理可及性,但也促进了没有身体检查的低质量互动。

在健康政策和研究中使用AI也不例外。明智地部署,它可以转变卫生部门,导致更健康的人群和难以突破的进步(例如通过加速药物发现)。但如果没有将其嵌入新的专业规范和实践,它有可能产生无数有缺陷的线索和虚假信息。

解决方案:构建负责任的医疗AI生态系统

为了应对AI与健康复制危机,我们提出以下潜在解决方案:

1. 开发临床专用AI模型

需要开发能够在其输出中承认不确定性的临床专用模型。这些模型应该能够表达"我不知道