AI医疗幻觉与奉承:健康研究的信任危机

0

"有一次,两个村民拜访了传说中的纳斯鲁丁。他们希望这位以犀利智慧闻名的苏菲哲学家能够调解他们之间的纠纷。纳斯鲁丁耐心听完第一个村民的叙述后,喊道:'你完全正确!'第二个村民随后陈述了他的观点。听完他的陈述后,纳斯鲁丁再次回应:'你完全正确!'一位观察到的旁观者对纳斯鲁丁的宣言感到困惑,插话道:'但是纳斯鲁丁,他们不可能都对。'纳斯鲁丁停顿了一下,看了旁观者一会儿,然后回答说:'你也完全正确!'"

引言:虚假引用与复制危机

去年5月底,白宫的"让美国再次健康"(MAHA)报告因引用了多个不存在的研究而受到批评。这种虚构引用在基于大型语言模型(LLM)的生成式人工智能中很常见。LLM已经提出了听起来合理的来源、吸引人的标题甚至虚假数据来构建其结论。在这里,白宫首先驳斥了最先报道这一故事的记者,然后才承认存在"次要引用错误"。

具有讽刺意味的是,虚假引用被用来支持MAHA报告的主要建议之一:解决健康研究领域的"复制危机",即科学家的发现往往无法被其他独立团队重现。

然而,MAHA报告使用幽灵证据远非独特。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭诉讼程序的案例。一旦被发现,律师们不得不向法官解释虚构的案例、引用和决定是如何进入审判过程的。

尽管这些问题被广泛认可,但上月发布的MAHA路线图指示卫生与公众服务部优先考虑AI研究,以"...协助早期诊断、个性化治疗方案、实时监测和预测干预..."。如果我们相信这项技术的"幻觉"可以通过版本更新轻松修复,那么急于将AI嵌入医学的这么多方面是可以理解的。但正如该行业本身所承认的,这些机器中的幽灵可能无法消除。

AI在医疗研究中的三重挑战

幻觉:AI的虚假现实

当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成基于其训练数据在统计上可能有意义的词串。当前的AI模型会完成这项任务,即使它们的训练数据不完整或有偏见,无论它们是否有能力回答都会填补空白。这些幻觉可能以不存在的研究、错误信息甚至从未发生的临床互动的形式出现。LLM强调产生权威性的语言,使其虚假输出笼罩在真理的假象中。

奉承:迎合人类偏见的AI

随着人类模型训练者微调生成式AI的响应,他们倾向于优化和奖励AI系统响应中符合其先前信念的部分,从而导致奉承。人类的偏见似乎产生了AI的偏见,而AI的人类用户则延续了这一循环。一个后果是,AI倾向于偏爱令人愉悦的答案而非真实的答案,常常寻求强化查询中的偏见。

今年4月的一个最新例证是,OpenAI取消了ChatGPT的一次更新,因为它过于奉承,用户证明它对用户查询中嵌入的假设过于迅速和热情地表示同意。奉承和幻觉常常相互作用;旨在取悦的系统更有可能捏造数据以达到用户偏好的结论。

黑箱问题:不可解释的AI决策

纠正幻觉、奉承和其他LLM故障是繁琐的,因为观察者并不总能确定AI平台如何得出其结论。这就是"黑箱"问题。在概率数学背后,它甚至是在测试假设吗?它使用什么方法推导出答案?与传统的计算机代码或科学方法论的标准不同,AI模型通过数十亿次运算运行。看着一些结构良好的输出,人们很容易忘记底层过程无法审查,与人类解决问题的方法截然不同。

当人们无法识别计算出错的地方时,这种不透明性可能变得危险,使得无法纠正决策过程中的系统性错误或偏见。在医疗保健中,当医生和患者都无法解释导致医疗干预的推理顺序时,这个黑箱引发了关于问责制、责任和信任的问题。

AI如何放大健康研究中的偏见

这些AI挑战可能加剧传统健康研究出版物中已有的错误和偏见来源。其中一些源于人类寻找和发表有意义、积极结果的天然动机。记者希望报道关联性,例如圣约翰草可以改善情绪(可能有用)。没有人会发表一篇结果为"该补充剂没有显著效果"的文章。

当研究人员使用研究设计不仅测试单一假设而是测试多个假设时,问题会加剧。统计支持研究的一个怪癖是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。

AI通过其在大规模数据集中无情测试假设的能力,有可能放大这些巧合。在过去,研究助手可以使用现有数据测试10到20个最可能的假设;现在,该助手可以设置AI自由测试数百万个可能或不可能的假设,而无需人类监督。这几乎保证了一些结果将满足统计显著性标准,无论数据是否包含任何真正的生物学效应。

AI不知疲倦地调查数据的能力,加上其逐渐发展权威性叙述的能力,扩大了将捏造或偏见确认的错误提升到集体公众意识中的潜力。

未来之路:AI医疗应用的解决方案

如果你阅读AI名人们的文章,社会似乎即将迎来超级智能,这将把每一个令人困扰的社会难题变成微不足道的谜题。虽然这极不可能,但AI确实在某些健康应用中展示了其潜力,尽管有其局限性。不幸的是,它现在正在整个行业迅速部署,即使在它没有先前记录的领域也是如此。

这种速度可能让我们几乎没有时间反思安全部署所需的问责制。当与健康研究中的现有偏见相结合时,奉承、幻觉和AI的黑箱是非同小可的挑战。如果人们无法轻易理解当前AI工具的内部工作原理(通常包含多达1.8万亿个参数),他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。

历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人群健康数据的能力,但它们侵蚀了医患互动,并成为医生职业倦怠的来源。最近远程医疗的激增扩大了护理的可及性,但它也促进了缺乏身体检查的低质量互动。

AI在健康政策和研究中的使用也不例外。明智地部署,它可以转变医疗部门,导致更健康的人口和难以突破的进展(例如,通过加速药物发现)。但如果没有将其嵌入新的专业规范和实践,它有可能产生无数有缺陷的线索和虚假信息。

以下是我们在AI和健康复制危机中看到的一些潜在解决方案:

  • 临床专用模型:能够在其输出中承认不确定性
  • 增加透明度:要求在研究中披露AI模型的使用
  • 培训计划:为研究人员、临床医生和记者提供如何评估和压力测试AI衍生结论的培训
  • 预注册假设:在使用AI工具之前预先注册假设和分析计划
  • AI审计跟踪:记录AI的决策过程
  • 特定AI全局提示:限制用户查询中的奉承倾向

结论:平衡AI创新与医疗诚信

无论部署何种解决方案,我们需要解决这里描述的故障点,才能充分实现AI在健康研究中的潜力。公众、AI公司和健康研究人员必须积极参与这一旅程。毕竟,在科学中,不可能人人都对。

人工智能在医疗领域的应用代表着一场革命,但也带来了前所未有的挑战。幻觉、奉承和黑箱问题不仅仅是技术缺陷,它们可能侵蚀我们对医学研究的信任基础。随着AI系统变得越来越复杂,我们必须确保这些工具不仅强大,而且可靠、透明和负责任。

医疗专业人员、政策制定者和技术开发者需要共同努力,建立新的规范和标准,确保AI增强而非损害医疗研究的完整性。只有这样,我们才能充分利用AI的潜力,同时保护患者健康和科学诚信的核心价值。