在古老的智慧故事中,两个村民向著名的苏菲哲学家纳斯雷丁寻求帮助,希望他能调解他们之间的纠纷。纳斯雷丁耐心听完第一个村民的陈述后,高喊道:"你完全正确!"接着,他又听完第二个村民的版本,同样回应道:"你完全正确!"一位旁观者困惑地指出:"但纳斯雷丁,他们不可能都对。"纳斯雷丁沉思片刻后回答道:"你,也完全正确!"
这个看似荒谬的寓言恰如其分地反映了当前人工智能在医疗领域面临的核心困境:当AI系统倾向于"谄媚"用户观点,同时又存在"幻觉"和"黑盒"问题时,我们如何确定其输出的科学性和可信度?
白宫健康报告的虚假引用警示
今年5月底,白宫发布的首个"让美国再次健康"(MAHA)报告因引用多个不存在的研究而受到批评。这种虚构引用在基于大型语言模型(LLM)的生成式人工智能中十分常见。LLM经常编造看似合理的来源、吸引人的标题甚至虚假数据来支持其结论。面对记者的质疑,白宫最初予以反驳,后来才承认存在"次要引用错误"。
颇具讽刺意味的是,这份MAHA报告的核心建议之一正是解决健康研究领域的"复制危机"——即科学家的发现往往无法被其他独立团队重复验证。
然而,MAHA报告使用幽灵证据的情况绝非孤例。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。一旦被发现,律师们不得不向法官解释虚构的案例、引用和判决如何进入审判过程。
尽管这些问题已得到广泛认识,但上月发布的MAHA路线图仍指示卫生与公众服务部优先考虑AI研究,以"...协助早期诊断、个性化治疗方案、实时监测和预测干预..."。如果我们相信AI的"幻觉"可以通过版本更新轻松修复,这种在医学众多方面嵌入AI的热切追求或许情有可原。但正如行业本身所承认的,这些机器中的"幽灵"可能无法消除。
AI在医疗研究中的潜在危害
加速AI在健康研究和临床决策中的应用可能带来的影响令人担忧。除了我们已经看到的问题,未经披露地使用AI进行研究可能创造一个反馈循环,放大促使使用AI的偏见。一旦基于错误结果和引用的"研究"发表,它们可能成为构建未来AI系统数据集的一部分。更糟糕的是,最近发表的一项研究突显了一个科学欺诈者行业,他们可能会利用AI使自己的主张看起来更合法。
换句话说,盲目采用AI可能导致恶性循环:今天有缺陷的AI输出成为明天的训练数据,指数级侵蚀研究质量。
AI滥用的三大维度
AI带来的挑战是多方面的:幻觉、谄媚性和黑盒难题。理解这些现象对研究科学家、政策制定者、教育工作者和普通公民都至关重要。如果不了解这些,我们在AI系统越来越多地用于塑造诊断、保险索赔、健康素养、研究和公共政策时,容易受到欺骗。
幻觉现象
幻觉的工作原理如下:当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成基于其训练数据在统计上可能有意义的词语串。当前的AI模型即使训练数据不完整或存在偏见,也会完成这项任务,无论其是否有能力回答问题。这些幻觉可能以不存在的研究、错误信息甚至从未发生的临床互动形式出现。LLM强调产生权威性的语言,使它们的错误输出被真相的表象所掩盖。
谄媚性问题
当人类模型训练师微调生成式AI的响应时,他们倾向于优化和奖励符合先前信念的AI系统响应,导致谄媚性。人类的偏见似乎会引发AI的偏见,而AI的人类用户则会延续这一循环。结果是,AI倾向于偏爱令人愉悦的答案而非真实的答案,常常寻求强化查询中的偏见。
最近的一个例子发生在4月,OpenAI取消了一个ChatGPT更新,因为它过于谄媚,用户证明它对用户查询中嵌入的假设同意得太快、太热情。谄媚性和幻觉常常相互作用;旨在取悦用户的系统更可能编造数据以达到用户偏好的结论。
黑盒困境
纠正幻觉、谄媚性和其他LLM故障很繁琐,因为人类观察者并不总能确定AI平台如何得出结论。这就是"黑盒









