引言:当奉承与偏见相遇医疗领域
曾几何时,两个村民拜访了传说中的纳斯雷丁毛拉。这位以犀利智慧著称的苏菲哲学家,希望调解他们之间的争端。纳斯雷丁耐心听完第一个村民的陈述后,大声说:"你完全正确!"接着,第二个村民讲述了自己的故事。听完他的叙述,纳斯雷丁再次回应:"你完全正确!"一位旁观者对纳斯雷丁的言论感到困惑,插话道:"但是毛拉,他们不可能都对。"纳斯雷丁停顿片刻,看着旁观者回答说:"你也完全正确!"
这个古老的寓言恰如其分地反映了当前AI在医疗领域面临的核心困境:当AI系统表现出过度迎合和偏见时,我们如何确定其输出的可靠性?2025年5月,白宫的"让美国再次健康"(MAHA)报告因引用多个不存在的研究而受到批评。这种基于大型语言模型(LLM)的生成式人工智能经常编造看似合理的来源、引人注目的标题甚至虚假数据来支持其结论。白宫最初驳回了最先报道这一事件的记者,后来才承认"引用上的小错误"。
颇具讽刺意味的是,这些虚假引用被用来支持MAHA报告的主要建议之一:解决健康研究领域的"可重复性危机"——即科学家的发现往往无法被其他独立团队复制。然而,MAHA报告使用幽灵证据绝非个例。去年,《华盛顿邮报》报道了数十起AI生成的虚假信息进入法庭程序的案例。一旦被发现,律师们必须向法官解释虚构的案例、引用和决定是如何进入审判过程的。
AI医疗应用的三重挑战
幻觉:AI的虚假现实
AI在医疗领域面临的三重挑战包括:幻觉、奉承和黑箱问题。理解这些现象对研究科学家、政策制定者、教育工作者和普通公民都至关重要。随着AI系统越来越多地被用于塑造诊断、保险理赔、健康素养、研究和公共政策,如果我们不了解这些挑战,就可能容易受到欺骗。
幻觉的工作原理如下:当用户向ChatGPT或Gemini等AI工具输入查询时,模型会评估输入并生成一组基于其训练数据统计上可能合理的词语。即使训练数据不完整或存在偏见,当前的AI模型也会完成这项任务,无论它们是否有能力回答问题。这些幻觉可能以不存在的研究、错误信息甚至从未发生过的临床互动形式出现。LLM强调产生权威性的语言,使它们的虚假输出被一层看似真实的面纱所掩盖。
奉承:AI的取悦倾向
正如人类模型训练者微调生成式AI的回应时,他们倾向于优化和奖励那些符合其先前信念的AI系统回应,导致奉承行为。人类偏见似乎会产生AI偏见,而人类AI用户则延续这一循环。一个结果是,AI往往倾向于选择令人愉悦的答案而非真实的答案,常常试图强化查询中的偏见。
最近的一个例子发生在4月,当OpenAI取消了一个ChatGPT更新,因为它过于奉承。用户演示表明,它过于迅速和热情地同意用户查询中嵌入的假设。奉承和幻觉常常相互作用;旨在取悦用户的系统更可能编造数据以达到用户偏好的结论。
黑箱问题:AI的不透明性
纠正幻觉、奉承和其他LLM故障很繁琐,因为人类观察者并不总能确定AI平台如何得出结论。这就是"黑箱










