AI幻觉报告风波:德勤因GPT-4o错误向澳大利亚政府退款

1

在人工智能技术日益融入各行各业的今天,专业咨询公司德勤(Deloitte)澳大利亚分公司近期因使用GPT-4o生成包含大量虚假引文的报告而面临严重信誉危机,并不得不向澳大利亚政府提供部分退款。这一事件不仅揭示了当前大语言模型在专业应用中的局限性,也引发了关于AI技术使用透明度和专业责任的深刻思考。

事件背景:一份价值44万澳元的报告

2025年7月,德勤澳大利亚完成了一份名为《目标合规框架保证审查》(Targeted Compliance Framework Assurance Review)的报告,并于8月由澳大利亚就业与劳动关系部(DEWR)正式发布。这份报告聚焦于澳大利亚政府用于自动化福利系统处罚的技术框架,项目总价值接近44万澳元(约合29万美元),由澳大利亚纳税人承担。

报告发布后不久,悉尼大学健康法副主任克里斯·鲁奇(Chris Rudge)发现了多处问题:报告中引用了多篇不存在的论文和出版物,其中包括多次引用了悉尼大学法学院教授丽莎·伯顿·克劳福德(Lisa Burton Crawford)的所谓研究报告,而克劳福德教授本人从未发表过这些内容。

AI幻觉:专业报告中的虚假信息

更令人担忧的是,这些错误并非简单的引用失误,而是AI模型典型的"幻觉"现象——即大语言模型生成看似合理但实际上完全虚构的信息。在德勤的报告中,GPT-4o不仅创造了不存在的学术研究,还编造了联邦法官詹妮弗·戴维斯(Jennifer Davies)的判决引文,甚至连法官的姓名都被错误拼写为"Davis"。

"看到以这种方式将研究归功于我,我感到非常担忧,"克劳福德教授在8月接受澳大利亚金融评论(AFR)采访时表示,"我希望看到德勤对引文生成方式的解释。"

德勤的应对与信息披露

面对质疑,德勤和DEWR在9月初发布了一份更新版本的报告,声称这是"对引文和脚注进行少量修正"。然而,在长达273页的更新报告中,德勤直到第58页才承认使用了基于生成式AI大语言模型(Azure OpenAI GPT-4o)的工具链作为技术工作流的一部分,用于评估"系统代码状态是否可以映射到业务需求和合规需求"。

对比原始报告和更新版本可以发现,原始报告中141个广泛"参考文献列表"中的引用,在更新后仅剩下127个。除了删除了针对克劳福德教授和其他学者的虚假出版物引用外,更新报告还移除了 attributed to an actual ruling from federal justice Jennifer Davies 的编造引文。

经济后果与合同调整

作为这起事件的直接后果,德勤澳大利亚宣布将退还与政府合同中的最后一笔款项,尽管目前尚不清楚这笔款项占合同总额的具体比例。DEWR的一位发言人对AFR表示,"独立审查的内容得以保留,建议没有变化。"

然而,悉尼大学的鲁奇教授持不同看法:"当报告的基础建立在有缺陷的、最初未披露的且非专业的方法上时,你无法信任这些建议……德勤承认将生成式AI用于核心分析任务,但最初未能披露这一点。"

行业影响与专业责任

这一事件对专业咨询行业敲响了警钟。德勤作为全球四大会计师事务所之一,其报告通常被视为高质量和可靠性的象征。然而,此次事件暴露了即使在顶级专业服务公司中,对AI工具的使用也可能存在严重问题。

专业咨询的核心价值在于提供基于专业知识和经验的分析建议。当这些分析部分由AI生成且未经适当验证时,不仅可能损害客户利益,还会动摇整个行业的信任基础。鲁奇教授的质疑直指核心问题:如果专业咨询公司不能确保其使用AI工具的透明度和可靠性,那么其专业价值何在?

技术局限性认知

从技术角度看,GPT-4o等大语言模型在生成流畅文本方面表现出色,但在确保事实准确性方面仍存在显著局限。这些模型倾向于根据训练数据中的模式生成看似合理但实际上不正确的信息,这种现象被称为"幻觉"。

在专业报告撰写这类对准确性要求极高的场景中,AI工具应当仅作为辅助手段,而非主要信息来源。德勤的案例表明,即使是对AI技术有一定了解的组织,也可能低估了这些工具在专业应用中的风险。

透明度与披露的重要性

此次事件中最受争议的方面之一是德勤最初未能披露其使用了AI工具生成报告内容。在专业服务领域,客户有权了解其购买的服务是如何提供的,包括使用的工具和方法。

随着AI技术在专业服务中的普及,建立明确的披露标准变得至关重要。这不仅关乎客户的知情权,也是专业机构维护自身声誉和信任的必要措施。德勤的教训表明,试图掩盖或淡化AI使用可能会带来比公开承认更大的声誉损害。

监管与合规考量

政府机构作为专业服务的重要客户,其对报告质量的要求通常高于一般商业客户。此次事件引发了一个重要问题:如何确保为政府提供专业服务的机构在使用AI工具时达到适当的合规标准?

目前,大多数司法管辖区尚未针对专业服务中使用AI制定具体法规。然而,随着此类事件的增加,监管机构可能会考虑制定更明确的指南,要求专业咨询公司披露AI工具的使用情况,并建立相应的质量控制机制。

行业应对与最佳实践

面对AI技术带来的机遇与挑战,专业咨询行业正在积极探索最佳实践。可能的应对措施包括:

  1. 建立AI使用政策:明确哪些任务可以使用AI工具,哪些必须由人类专业人员完成。
  2. 实施严格的验证流程:对AI生成的内容进行多层次的验证,确保事实准确性。
  3. 提高透明度:向客户明确披露AI工具的使用范围和方式。
  4. 专业培训:确保员工了解AI工具的局限性,并掌握适当的验证方法。
  5. 质量保证机制:建立专门针对AI生成内容的质量控制流程。

客户启示与风险管理

对于专业服务的客户而言,德勤的案例提供了重要启示:

  1. 询问AI使用情况:在选择专业服务提供商时,询问其AI工具的使用政策。
  2. 要求验证方法:了解提供商如何验证AI生成内容的准确性。
  3. 明确合同条款:在合同中明确规定关于AI使用的披露要求和质量标准。
  4. 保持批判性思维:即使来自知名机构,对专业报告中的关键主张也应保持适当的批判性审查。

未来展望:AI与专业服务的融合

尽管此次事件暴露了问题,但AI技术为专业服务带来的变革潜力不容忽视。未来,我们可能会看到:

  1. 人机协作模式:专业人员与AI工具形成更紧密的协作关系,充分发挥各自优势。
  2. 专业AI工具:专为特定专业领域设计的AI工具,提高专业服务的效率和质量。
  3. 行业标准形成:专业服务行业建立关于AI使用的统一标准和最佳实践。
  4. 技术进步:大语言模型在减少幻觉和提高事实准确性方面的持续改进。

结论:信任与责任的平衡

德勤因AI幻觉报告向澳大利亚政府退款的事件,是专业服务行业在AI应用道路上的一个重要里程碑。它提醒我们,技术进步必须与专业责任和透明度并行发展。

在人工智能日益渗透专业服务领域的今天,机构面临的不仅是技术挑战,更是如何维护专业信任的考验。只有建立适当的治理框架、提高透明度、并始终将客户利益置于首位,专业服务行业才能在AI时代保持其核心价值和社会认可。

这一事件不应被视为阻碍AI技术在专业服务中应用的障碍,而应作为推动建立更负责任、更透明AI使用方式的契机。通过吸取教训并采取积极措施,专业咨询公司可以在保持专业标准的同时,充分利用AI技术带来的效率提升和创新机会。