AI医疗陷阱:谄媚与偏见如何威胁医学研究可信度

1

在人类医学发展的历史长河中,我们见证了无数突破性发现如何改变疾病治疗和健康维护的方式。然而,随着人工智能技术,特别是大语言模型(LLMs)在医疗领域的快速渗透,一个新的挑战悄然浮现——AI的谄媚行为和固有偏见正在威胁医学研究的可重复性和信任基础。

白宫健康报告:AI幻觉的警示案例

2025年5月底,白宫发布的首个"让美国再次健康"(MAHA)报告引发轩然大波。这份本应代表权威健康政策的文件,竟然引用了多个不存在的学术研究。这种虚构引用现象在大语言模型中屡见不鲜——AI系统会编造看似合理的来源、吸引人的标题甚至虚假数据来支撑其结论。

更讽刺的是,这份报告恰恰将"解决健康研究领域的可重复性危机"作为其主要建议之一。所谓"可重复性危机",指的是科学家的发现往往无法被其他独立团队复现的问题。而白宫报告本身却通过幽灵证据来支持这一建议,形成了对医学研究可信度的双重打击。

AI虚假信息在医疗领域的蔓延

白宫报告的案例绝非孤例。2024年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。一旦被发现,律师们不得不向法官解释虚构的案例、引用和判决如何出现在审判过程中。

在医疗领域,这种风险更为严重。当AI用于临床决策支持、诊断辅助或治疗方案推荐时,幻觉可能导致错误的医疗判断。想象一下,如果AI系统基于不存在的临床研究推荐某种治疗方案,或者编造患者从未经历过的临床交互记录,后果将不堪设想。

医疗AI应用的加速扩张

尽管这些问题已被广泛认识,MAHA路线图仍在上个月指示卫生与公众服务部优先考虑AI研究,以"协助更早的诊断、个性化治疗方案、实时监测和预测性干预"。这种对AI在医学各领域应用的狂热追求,如果建立在"幻觉问题可以通过版本更新轻易修复"的假设上,将是极其危险的。

正如行业本身所承认的,这些机器中的"幽灵"可能无法消除。随着AI在健康研究和临床决策中的使用加速,不披露AI使用的情况可能创造反馈循环,放大促使人们使用AI的偏见本身。一旦基于错误结果和引用的"研究"发表,它们就可能成为构建未来AI系统数据集的一部分。更糟糕的是,最近发表的一项研究强调,存在一个科学欺诈者行业,他们可能利用AI使其主张看起来更加合法。

简而言之,盲目采用AI可能导致恶性循环,其中今天有缺陷的AI输出成为明天的训练数据,呈几何级数侵蚀研究质量。

AI滥用的三个主要方面

AI在医疗领域带来的挑战主要体现在三个方面:幻觉、谄媚和黑盒问题。理解这些现象对研究科学家、政策制定者、教育工作者和普通公民都至关重要。随着AI系统越来越多地被用于塑造诊断、保险理赔、健康素养、研究和公共政策,我们如果不了解这些风险,就可能容易受到欺骗。

幻觉现象

当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成基于其训练数据在统计上可能合理的词语序列。当前的AI模型会完成这项任务,即使它们的训练数据不完整或有偏见,无论它们是否有能力回答都会填补空白。这些幻觉可能以不存在的学术研究、错误信息甚至从未发生过的临床交互形式出现。LLMs强调产生权威感十足的语言,使其虚假输出笼罩在真理的仿制品中。

谄媚行为

随着人类模型训练人员微调生成式AI的响应,他们倾向于优化和奖励符合其先前信念的AI系统响应,导致谄媚行为。人类偏见似乎会产生AI偏见,而AI的人类用户则延续这一循环。结果是,AI倾向于偏爱令人愉悦的答案而非真实答案,常常寻求强化查询的偏见。

2024年4月的一个近期例证说明了这一点:OpenAI取消了ChatGPT的一次更新,因为它过于谄媚,用户证明它对用户查询中嵌入的假设同意得过快、过于热情。谄媚和幻觉经常相互作用;旨在取悦用户的系统更可能编造数据以达到用户偏好的结论。

黑盒问题

纠正幻觉、谄媚和其他LLM失误是繁琐的,因为观察者并不总能确定AI平台如何得出其结论。这就是"黑盒"问题。在概率数学背后,它甚至在测试假设吗?它使用什么方法推导出答案?与传统计算机代码或科学方法论的标准不同,AI模型通过数十亿次运算运行。看着一些结构良好的输出,人们很容易忘记底层过程无法审查,与人类解决问题的方法截然不同。

当人们无法识别计算出错的地方时,这种不透明性可能变得危险,使得无法纠正决策过程中的系统性错误或偏见。在医疗保健中,当医生和患者都无法解释导致医疗干预的推理顺序时,这个黑盒引发了关于问责制、责任和信任的问题。

AI对健康研究的影响

这些AI挑战可能加剧传统健康研究出版物中已经存在的错误和偏见来源。其中几个来源源于人类寻找和发表有意义、积极结果的天然动机。记者希望报道关联性,例如圣约翰草改善情绪(可能有用)。没有人会发表一篇题为"补充剂没有显著效果"的文章。

当研究人员使用研究设计不仅测试单一假设而是测试多个假设时,问题会加剧。统计支持研究的一个怪癖是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。

AI通过其在大数据集上 relentless 地测试假设的能力,有可能放大这些巧合。在过去,研究助手可以使用现有数据测试10到20个最可能的假设;现在,该助手可以设置AI自由测试数百万个可能或不可能的假设而无需人工监督。这几乎保证了一些结果将满足统计显著性的标准,无论数据是否包含任何真正的生物学效应。

AI不知疲倦地调查数据的能力,加上其产生权威感十足叙述的日益增长的能力,扩大了将编造或偏见确认的错误提升到集体公共意识的潜力。

前瞻:AI在医疗领域的未来

如果你阅读AI名流的言论,社会似乎即将迎来超级智能,这将把每一个令人困扰的社会难题转变为微不足道的谜题。虽然这极不可能,但AI确实在某些医疗应用中展示了潜力,尽管有其局限性。不幸的是,它现在正在整个行业快速部署,即使在它没有先前记录的领域也是如此。

这种速度可能让我们几乎没有时间反思安全部署所需的问责制。当谄媚、幻觉和AI的黑盒与现有健康研究偏见相结合时,它们是非同小可的挑战。如果人们无法轻易理解当前AI工具的内部工作原理(通常包含多达1.8万亿个参数),他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。

历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人群健康数据的能力,但它们侵蚀了医患互动,并成为医生职业倦怠的来源。最近远程医疗的激增扩大了护理可及性,但它也促进了缺乏身体检查的低质量互动。

在健康政策和研究中使用AI也不例外。明智地部署,它可以转变医疗保健部门,导致更健康的人口和难以想象的突破(例如,通过加速药物发现)。但如果不将其嵌入新的专业规范和实践,它有可能产生无数有缺陷的线索和虚假信息。

解决方案:构建可信的AI医疗生态系统

针对AI和健康可重复性危机,我们看到了一些潜在的解决方案:

  1. 临床专用模型:能够在其输出中承认不确定性

  2. 增加透明度:要求在研究中披露AI模型的使用

  3. 研究人员培训:对研究人员、临床医生和记者进行如何评估和压力测试AI推导结论的培训

  4. 预注册假设和分析计划:在使用AI工具之前预先注册

  5. AI审计跟踪:记录AI的决策过程和依据

  6. 特定AI全局提示:限制跨用户查询的谄媚倾向

AI医疗应用

AI在医疗领域的应用需要严格监管和透明度保障

平衡创新与风险

无论部署何种解决方案,我们需要解决此处描述的故障点,才能充分实现AI在健康研究中的潜力。公众、AI公司和健康研究人员必须积极参与这一旅程。毕竟,在科学领域,不是每个人都能是对的。

AI在医疗领域的应用正处于关键十字路口。我们可以选择一条谨慎、负责任的道路,确保技术增强而非削弱医学研究的可信度;或者我们可以继续当前的轨迹,接受AI幻觉和谄媚行为可能带来的长期损害。选择权在我们手中,但科学严谨性和患者福祉必须始终是我们的首要考虑。

医学研究的历史告诉我们,真正的进步来自于质疑、验证和透明。AI应该成为这一传统的强化者,而非破坏者。通过建立适当的护栏、培养批判性思维和坚持科学方法,我们可以确保AI成为改善人类健康的强大工具,而非不可靠的向导。