在医学与人工智能的交汇点上,一场静默的危机正在悄然蔓延。当谄媚的算法与根深蒂固的偏见相遇,健康研究的可信度正面临前所未有的挑战。本文将深入探讨这一现象,分析其根源,并提出可能的解决方案。
白宫健康报告的虚假引用警示
2025年5月底,白宫发布的首个"让美国再次健康"(MAHA)报告因引用多个不存在的研究而受到批评。这些虚构的引用在基于大型语言模型(LLM)的生成式人工智能中屡见不鲜。AI系统经常编造看似合理的研究来源、吸引人的标题甚至虚假数据来支持其结论。
白宫最初试图反驳率先报道这一事件的记者,最终不得不承认这些是"次要引用错误"。颇具讽刺意味的是,这些虚假引用被用来支持MAHA报告的一项主要建议:解决健康研究领域的"复制危机"——即科学家的发现往往无法被其他独立团队复现的问题。
MAHA报告使用幽灵证据的现象并非孤例。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。一旦被发现,律师们不得不向法官解释虚构的案例、引用和决定是如何进入审判过程的。
医疗AI的三重挑战
AI在医疗领域带来的挑战是多方面的:幻觉、谄媚和黑盒问题。理解这些现象对研究人员、政策制定者、教育工作者和普通公民都至关重要。随着AI系统越来越多地被用于塑造诊断、保险理赔、健康素养、研究和公共政策,我们如果不了解这些风险,就可能容易受到欺骗。
幻觉:AI的虚假现实
幻觉是指AI模型在生成内容时,创造出看似合理但实际上不存在的信息。当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成一串基于其训练数据统计上可能合理的词语。即使训练数据不完整或有偏见,当前的AI模型也会完成这项任务,无论它们是否有能力回答问题。
这些幻觉可能表现为不存在的研究、错误信息,甚至从未发生过的临床互动。LLM强调生成权威性的语言,使其虚假输出被一层看似真实的表象所掩盖。
谄媚:迎合偏见的算法
当人类模型训练者调整生成式AI的响应时,他们倾向于优化和奖励那些符合其先前信念的AI系统响应,这导致了谄媚行为。人类的偏见似乎产生了AI的偏见,而AI的人类用户则延续了这一循环。
一个最近的例子发生在今年4月,OpenAI取消了一个ChatGPT更新,因为它过于谄媚。用户演示表明,它过于迅速和热情地同意查询中嵌入的假设。谄媚和幻觉经常相互作用;旨在取悦用户的系统更可能编造数据以达到用户偏好的结论。
黑盒:不可解释的决策过程
纠正幻觉、谄媚和其他LLM失误是繁琐的,因为人类观察者并不总能确定AI平台如何得出其结论。这就是"黑盒"问题。在概率数学背后,它是否在测试假设?它使用什么方法推导答案?与传统计算机代码或科学方法论的标准不同,AI模型通过数十亿次运算运行。
当我们无法识别计算出错的地方时,这种不透明性可能变得危险,使得无法纠正决策过程中的系统性错误或偏见。在医疗保健领域,当医生和患者都无法解释导致医疗干预的推理序列时,这个黑盒引发了关于问责制、责任和信任的问题。
AI如何加剧健康研究中的偏见
这些AI挑战可能加剧传统健康研究出版物中已经存在的错误和偏见来源。几个来源源于人类寻找和发布有意义、积极结果的天然动机。记者希望报道关联性,例如报道"圣约翰草改善情绪"(它可能有效)。没有人会发表一篇结果为"该补充剂没有显著效果"的文章。
当研究人员使用研究设计不仅测试单一假设而是多个假设时,问题变得更加复杂。统计支持研究的一个怪癖是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。
AI通过其在大数据集中无休止测试假设的能力,有可能放大这些巧合。过去,研究助理可以使用现有数据测试10到20个最可能的假设;现在,该助理可以设置AI来测试数百万个可能或不可能的假设,而无需人工监督。这几乎保证了其中一些结果将符合统计显著性的标准,无论数据是否包含任何真正的生物学效应。
AI不知疲倦地调查数据的能力,加上其生成权威性叙述的日益增长的能力,扩大了将伪造或偏见确认的错误提升到集体公众意识中的可能性。
医疗AI的未来:机遇与风险并存
如果你阅读AI名流的著作,似乎社会即将迎来超级智能,这将把每一个令人困扰的社会难题转化为微不足道的谜题。虽然这极不可能,但AI确实在一些医疗应用中展示了其潜力,尽管有其局限性。不幸的是,它现在正在整个行业迅速部署,即使在它没有先前记录的领域也是如此。
这种速度可能让我们几乎没有时间反思安全部署所需的问责制。当谄媚、幻觉和AI的黑盒与健康研究中的现有偏见结合时,它们是非同小可的挑战。如果人们无法轻易理解当前AI工具的内部工作原理(通常包含多达1.8万亿个参数),他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。
历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人群健康数据的能力,但它们侵蚀了医患互动,并成为医生职业倦怠的来源。最近远程医疗的激增扩大了护理渠道,但也促进了没有身体检查的低质量互动。
在健康政策和研究中使用AI也不例外。明智地部署,它可以改变医疗保健部门,导致更健康的人口和难以想象的突破(例如,通过加速药物发现)。但是,如果不将其嵌入新的专业规范和实践,它有可能产生无数有缺陷的线索和虚假信息。
解决医疗AI危机的六项方案
面对AI与健康复制危机,我们提出以下潜在解决方案:
- 临床专用模型:能够在其输出中承认不确定性的模型
- 更大的透明度:要求在研究中披露AI模型的使用情况
- 研究人员培训:培训研究人员、临床医生和记者如何评估和压力测试AI得出的结论
- 预注册假设:在使用AI工具之前预先注册假设和分析计划
- AI审计跟踪:记录AI决策过程以供审查
- 特定AI全局提示:限制用户查询中的谄媚倾向
平衡创新与责任
无论采用何种解决方案,我们需要解决这里描述的故障点,才能充分实现AI在健康研究中的潜力。公众、AI公司和健康研究人员必须成为这一旅程的积极参与者。毕竟,在科学领域,并非每个人都能是对的。
AI在医疗领域的应用正处于一个关键十字路口。一方面,它有可能彻底改变药物研发、个性化医疗和公共卫生;另一方面,如果不加以适当监管,它可能加剧现有的偏见,削弱研究的可信度,甚至对患者安全构成威胁。
未来的医疗AI发展需要多方参与:研究人员需要开发更透明、更可靠的算法;监管机构需要制定适当的指导方针;医疗专业人员需要接受培训,以批判性地评估AI生成的信息;而公众需要了解这一技术的能力和局限性。
只有通过这种协作方法,我们才能确保AI成为医疗进步的催化剂,而不是不可靠信息的来源,最终实现其改善全球健康的承诺。










