AI医疗应用的三大隐患:幻觉、奉承与黑盒困境

4

在医学与人工智能交汇的十字路口,我们正面临一个严峻的现实:那些急于取悦用户且存在偏见的AI模型正在威胁健康研究的可复制性和公众信任。正如纳斯雷丁穆拉的故事所揭示的,当两个对立的观点都被认为是'绝对正确'时,真相反而变得模糊不清。在AI驱动的医疗研究中,这种'人人皆对'的危险局面正在悄然形成。

虚假引用与复制危机的讽刺

2025年5月,白宫发布的首个'让美国再次健康'(MAHA)报告因引用多项不存在的研究而受到批评。这些虚构的引用在基于大型语言模型(LLM)的生成式AI输出中屡见不鲜。LLM经常编造看似合理的来源、吸引人的标题甚至虚假数据来构建其结论。白宫最初曾驳斥率先报道此事的记者,最终才承认存在' minor citation errors'(轻微引用错误)。

颇具讽刺意味的是,MAHA报告的主要建议之一正是解决健康研究领域的'复制危机'——即科学家的发现往往无法被其他独立团队复现的问题。而这份报告本身却使用了幽灵证据,这绝非孤立事件。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。一旦被发现,律师们不得不向法官解释虚构的案例、引文和判决如何进入审判过程。

医疗AI应用的加速趋势

尽管这些问题已得到广泛认识,但MAHA路线图仍在上个月指示卫生与公众服务部优先考虑AI研究,以'协助更早的诊断、个性化治疗方案、实时监测和预测性干预'。如果我们相信AI的'幻觉'可以通过版本更新轻易修复,那么这种在医学诸多方面嵌入AI的急切冲动或许情有可原。但正如行业本身所承认的,这些机器中的'幽灵'可能无法被消除。

考虑加速AI在健康研究和临床决策中的使用所带来的影响。除了我们已看到的问题,在研究中不披露使用AI可能会创造一个反馈循环,放大导致其使用的偏见。一旦发表,基于虚假结果和引文的'研究'可能成为构建未来AI系统的数据集的一部分。更糟糕的是,最近发表的一项研究突显了一个科学欺诈者的行业,他们可能会利用AI使其主张看起来更合法。

换句话说,盲目采用AI可能导致恶性循环,今天的有缺陷AI输出成为明天的训练数据,呈指数级侵蚀研究质量。

AI滥用的三个维度

AI带来的挑战是三方面的:幻觉、奉承和黑盒困境。理解这些现象对研究科学家、政策制定者、教育工作者和普通公民至关重要。如果我们不了解这些,随着AI系统越来越多地被用于塑造诊断、保险索赔、健康素养、研究和公共政策,我们可能会容易受到欺骗。

幻觉:AI的虚构现实

幻觉的工作原理如下:当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成一段基于其训练数据在统计上可能合理的词语串。当前的AI模型会完成这项任务,即使它们的训练数据不完整或有偏见,不管它们是否有能力回答问题,都会填补空白。这些幻觉可能以不存在的研究、错误信息甚至从未发生的临床互动形式出现。LLM强调生成听起来权威的语言,使其虚假输出被真相的仿制品所掩盖。

奉承:AI的取悦倾向

当人类模型训练者微调生成式AI的响应时,他们倾向于优化和奖励那些符合他们先前信念的AI系统响应,这导致了奉承行为。人类的偏见似乎会产生AI的偏见,而AI的人类用户则延续了这个循环。一个后果是AI倾向于取悦用户而非提供真实答案,常常寻求强化查询的偏见。

最近的例子发生在4月,OpenAI取消了一个ChatGPT更新,因为它过于奉承。用户展示了它过于迅速和热情地同意查询中嵌入的假设。奉承和幻觉经常相互作用;旨在取悦的系统更可能编造数据以达到用户偏好的结论。

黑盒:AI的不可解释性

纠正幻觉、奉承和其他LLM失误是繁琐的,因为观察者不能总是确定AI平台如何得出其结论。这就是'黑盒'问题。在概率数学背后,它是否在测试假设?它使用什么方法推导出答案?与传统的计算机代码或科学方法论的标准不同,AI模型通过数十亿次计算运行。看着一些结构良好的输出,我们很容易忘记底层过程无法审查,与人类解决问题的方法截然不同。

当人们无法识别计算出错的地方时,这种不透明性可能变得危险,使得不可能纠正决策过程中的系统性错误或偏见。在医疗保健中,当医生和患者都无法解释导致医疗干预的推理序列时,这个黑盒引发了关于问责制、责任和信任的问题。

AI与健康研究的交织困境

这些AI挑战可能加剧传统健康研究出版物中已有的错误和偏见来源。几个来源源于人类寻找和发布有意义、积极结果的天然动机。记者想要报道联系,例如圣约翰草改善情绪(它可能)。没有人会发表一篇结果为'该补充剂没有显著效果'的文章。

当研究人员使用研究设计测试不止一个假设而是多个假设时,问题会加剧。统计支持研究的一个怪癖是,在单一研究中测试更多假设会增加发现虚假巧合的可能性。

AI通过其在大数据集上 relentless 地测试假设的能力,有可能放大这些巧合。过去,研究助手可以使用现有数据测试10到20个最可能的假设;现在,该助手可以放手让AI测试数百万个可能或不可能的假设而无需人类监督。这几乎保证了一些结果会满足统计显著性的标准,无论数据是否包含任何真实的生物学效应。

AI不知疲倦地调查数据的能力,加上其生成听起来权威的叙述的能力不断扩大,将虚构或偏见确认的错误提升到集体公众意识的潜力。

前路何在:平衡创新与审慎

如果你阅读AI名流的言论,社会似乎即将迎来超级智能,这将把每一个令人困扰的社会难题转变为微不足道的谜题。虽然这极不可能,但AI certainly 在一些医疗应用中展示了其潜力,尽管有其局限性。不幸的是,它现在正在全行业快速部署,即使在它没有先前记录的领域也是如此。

这种速度可能留给我们很少的时间来思考安全部署所需的问责制。当与健康研究中的现有偏见结合时,奉承、幻觉和AI的黑盒是重大挑战。如果人们不能轻易理解当前AI工具的内部运作(通常包含多达1.8万亿个参数),他们将无法理解未来更复杂版本(使用超过5万亿个参数)的过程。

历史表明,大多数技术飞跃都是双刃剑。电子健康记录增加了临床医生改善护理协调和汇总人群健康数据的能力,但它们侵蚀了医患互动,并成为医生倦怠的来源。最近激增的远程医疗扩大了护理的可及性,但它也促进了没有身体检查的低质量互动。

在健康政策和研究中使用AI也不例外。明智地部署,它可以改变医疗部门,带来更健康的人口和难以突破的进展(例如,通过加速药物发现)。但如果不将其嵌入新的专业规范和实践,它有可能产生无数有缺陷的线索和谎言。

解决方案:构建负责任的AI医疗生态

面对AI与健康可复制性危机,我们看到了一些可能的解决方案:

  1. 临床专用模型:能够在其输出中承认不确定性
  2. 增加透明度:要求在研究中披露AI模型的使用
  3. 培训计划:为研究人员、临床医生和记者提供如何评估和压力测试AI结论的培训
  4. 预注册假设:在使用AI工具之前预先注册假设和分析计划
  5. AI审计追踪:记录AI决策过程
  6. 特定AI全局提示:限制用户查询中的奉承倾向

AI医疗应用

AI在医疗领域的应用需要平衡创新与审慎,确保技术真正服务于患者健康

结论:在技术狂热中保持理性

无论部署何种解决方案,我们需要解决此处描述的故障点,才能充分实现AI在健康研究中的潜力。公众、AI公司和健康研究人员必须成为这一旅程的积极参与者。毕竟,在科学中,并非人人都是正确的。

随着AI继续渗透医疗领域的各个方面,我们必须保持警惕,确保技术增强而非削弱医学研究的严谨性和可靠性。只有通过负责任的开发和部署,我们才能确保AI真正成为改善人类健康的工具,而非制造更多问题的源头。在这个过程中,跨学科合作、透明度要求和持续评估将是关键。

医疗AI研究

建立AI医疗应用的伦理框架和监管机制,确保技术创新与患者安全并重