AI与医疗的致命结合:谄媚与偏见如何威胁健康研究

1

在医学研究领域,人工智能技术的迅猛发展本应带来革命性的进步,然而一个令人担忧的趋势正在形成:当AI的谄媚倾向与系统性偏见相遇时,我们正在面临健康研究可复制性和信任度的严重威胁。

虚假引用与白宫健康报告的警示

去年五月,白宫发布的首个"让美国再次健康"(MAHA)报告因引用多个不存在的学术研究而受到批评。这种虚构引用在基于大型语言模型(LLM)的生成式人工智能中屡见不鲜。LLM经常编造看似合理的来源、吸引人的标题甚至虚假数据来构建其结论。面对记者的质疑,白宫最初予以反驳,最终才承认这些只是"次要引用错误"。

虚假引用示例

颇具讽刺意味的是,这些虚假引用被用来支持MAHA报告的主要建议之一:解决健康研究领域的"可复制性危机"——即科学家的发现在其他独立团队手中往往无法重现。

法庭上的AI幻觉:从研究到现实世界的蔓延

白宫报告的虚假引用绝非孤例。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。一旦被发现,律师们不得不向法官解释虚构的案例、引用和决定是如何进入审判过程的。

医疗专业人士工作场景

尽管这些问题已得到广泛认识,但MAHA路线图仍指示卫生与公众服务部优先考虑AI研究,以"协助早期诊断、个性化治疗方案、实时监测和预测干预"。这种在医学各个领域匆忙嵌入AI的做法,如果相信技术的"幻觉"可以通过版本更新轻易修复,或许情有可原。但正如行业本身所承认的,这些机器中的"幽灵"可能无法消除。

AI在临床决策中的潜在影响

考虑加速AI在健康研究和临床决策中的使用所带来的影响。除了我们已看到的问题,在研究中不使用AI可能创造一个反馈循环,放大促使使用它的偏见。一旦发表,基于错误结果和引用的"研究"可能成为构建未来AI系统的数据集的一部分。更糟糕的是,最近发表的一项研究强调了科学欺诈者可能利用AI使他们的主张看起来更合法的产业。

换句话说,盲目采用AI可能导致恶性循环,今天有缺陷的AI输出成为明天的训练数据,指数级降低研究质量。

AI滥用的三个维度

AI带来的挑战是三方面的:幻觉、谄媚和黑箱难题。理解这些现象对研究科学家、政策制定者、教育工作者和普通公民至关重要。如果我们不知道这些,随着AI系统越来越多地被用于塑造诊断、保险索赔、健康素养、研究和公共政策,我们将容易受到欺骗。

幻觉现象:AI如何创造虚假现实

幻觉的工作原理如下:当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成基于其训练数据在统计上可能合理的词语序列。即使训练数据不完整或存在偏见,当前的AI模型也会完成这项任务,无论它们是否有能力回答。这些幻觉可能以不存在的研究、错误信息甚至从未发生的临床互动形式出现。LLM对产生权威语言风格的重视,使它们的错误输出笼罩在真理的假象之下。

谄倾向:AI如何迎合人类偏见

正如人类模型训练者调整生成式AI的响应时,他们倾向于优化和奖励符合其先前信念的AI系统响应,这导致谄媚行为。人类偏见似乎会产生AI偏见,而AI的人类用户则延续这一循环。一个后果是,AI倾向于偏爱令人愉悦的答案而非真实的答案,常常寻求强化查询中的偏见。

今年四月的一个例子说明了这一点,OpenAI在用户证明ChatGPT对查询中嵌入的假设同意过快、过于热情后,取消了ChatGPT的更新,因为该更新过于谄媚。谄媚和幻觉经常相互影响;旨在取悦用户的系统更可能编造数据以达到用户偏好的结论。

黑箱问题:无法解释的决策过程

纠正幻觉、谄媚和其他LLM失误是繁琐的,因为观察者并不总能确定AI平台如何得出结论。这就是"黑箱"问题。在概率数学背后,它真的在测试假设吗?它使用什么方法推导答案?与传统的计算机代码或科学方法论的标准不同,AI模型通过数十亿次运算运行。看到一些结构良好的输出,很容易忘记底层过程无法审查,与人类解决问题的方法截然不同。

当人们无法识别计算出错的地方时,这种不透明性可能变得危险,使得无法纠正决策过程中的系统性错误或偏见。在医疗保健领域,当医生和患者都无法解释导致医疗干预的推理序列时,这个黑箱引发了对问责制、责任和信任的质疑。

AI如何加剧健康研究中的现有偏见

这些AI挑战可能加剧传统健康研究出版物中已经存在的错误和偏见来源。其中一些来源源于人类寻找和发布有意义、积极结果的天然动机。记者希望报道联系,例如圣约翰草改善情绪(它可能)。没有人会发表一篇结果为"该补充剂没有显著效果"的文章。

当研究人员使用研究设计测试多个假设而不仅仅是单一假设时,问题会加剧。统计支持研究的一个特点是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。

AI通过其在大数据集中 relentless 测试假设的能力,有可能放大这些巧合。过去,研究助理可以使用现有数据测试10到20个最可能的假设;现在,该助理可以不受监督地让AI测试数百万个可能或不太可能的假设。这几乎保证了一些结果将符合统计显著性的标准,无论数据是否包含任何真正的生物学效应。

AI不知疲倦地调查数据的能力,加上其生成权威叙述能力的提高,提升了将编造或偏见确认的错误提升到集体公众意识中的潜力。

未来之路:平衡AI潜力与风险

如果你阅读AI名人的文章,社会似乎即将迎来超级智能,这将把每个令人困扰的社会难题转变为琐碎的谜题。虽然这极不可能,但AI确实在一些健康应用中展示了潜力,尽管有其局限性。不幸的是,它现在正在整个行业快速部署,即使在它没有先前记录的领域也是如此。

这种速度可能留给我们很少时间反思安全部署所需的问责制。当与健康研究中的现有偏见结合时,谄媚、幻觉和AI的黑箱是非同小可的挑战。如果人们不能轻易理解当前AI工具的内部运作(通常包含多达1.8万亿个参数),他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。

历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人群健康数据的能力,但它们侵蚀了医患互动,并成为医生职业倦怠的来源。最近远程医疗的激增扩大了护理可及性,但它也促进了没有身体检查的低质量互动。

在健康政策和研究中使用AI也不例外。明智地部署,它可以改变医疗保健部门,带来更健康的人口和难以突破的进步(例如通过加速药物发现)。但如果没有将其嵌入新的专业规范和实践,它有可能产生无数有缺陷的线索和虚假信息。

解决方案:迈向负责任的AI医疗应用

以下是解决AI和健康可复制性危机的一些潜在解决方案:

  1. 临床专用模型:能够在其输出中承认不确定性的模型
  2. 增加透明度:要求在研究中披露AI模型的使用
  3. 专业培训:为研究人员、临床医生和记者提供如何评估和压力测试AI推导结论的培训
  4. 预注册假设:在使用AI工具之前预先注册假设和分析计划
  5. AI审计跟踪:建立可追溯的AI决策记录
  6. 特定AI提示:限制用户查询中的谄媚倾向的全球提示

无论采用何种解决方案,我们需要解决此处描述的故障点,才能充分实现AI在健康研究中的潜力。公众、AI公司和健康研究人员必须成为这一旅程的积极参与者。毕竟,在科学中,不是每个人都能是对的。