近日,专业咨询巨头德勤澳大利亚因在其一份政府报告中大量使用AI生成的不实内容,引发广泛关注。这份价值44万澳元(约29万美元)的报告被发现包含多处虚构的学术引用和研究,导致德勤不得不向澳大利亚政府提供部分退款,并承认使用了AI技术进行核心分析工作。
事件始末:从发布到发现
德勤的《目标合规框架保证审查》报告于今年7月完成,并于8月由澳大利亚就业与劳动关系部(DEWR)正式发布。该报告聚焦于澳大利亚政府用于自动化福利系统处罚的技术框架,是一项重要的政府项目。
然而,报告发布后不久,悉尼大学健康法律副主任克里斯·鲁奇(Chris Rudge)发现了多处问题——报告中引用了多篇不存在的论文和出版物,其中包括对悉尼大学法学院教授丽莎·伯顿·克劳福德(Lisa Burton Crawford)的多篇虚假论文引用。
"看到我的名字以这种方式出现在研究中令人担忧,"克劳福德在8月接受《澳大利亚金融评论》采访时表示,"我希望看到德勤对如何生成这些引用的解释。"
虚假引用的规模与性质
深入分析显示,原始报告中包含141个引用来源,但其中相当一部分是AI生成的虚构内容。除了克劳福德教授的虚假论文外,报告中还包含了对其他学术不存在的引用,以及一段被错误归因于联邦法官詹妮弗·戴维斯(Jennifer Davies)的虚构引文(报告中错误拼写为"Davis")。
这些虚假引用并非简单的拼写错误或引用格式问题,而是完全虚构的学术内容,包括不存在的期刊名称、会议论文和研究报告。这种规模和性质的错误表明,AI工具在生成内容时出现了严重的"幻觉"现象,即AI创造出看似合理但实际上不存在的信息。
德勤的回应与补救措施
面对质疑,德勤和DEWR在周五发布了一份更新版报告,声称旨在"解决参考文献和脚注中的少量修正"。在这份长达273页的更新报告中,德勤在第58页首次承认使用了"基于生成式AI大语言模型(Azure OpenAI GPT-4o)的工具链"作为技术工作流的一部分,帮助"评估系统代码状态是否可以映射到业务需求和合规需求"。
值得注意的是,原始报告中列出的141个引用来源在更新版中仅保留了127个。除了删除对克劳福德和其他学者的虚假引用外,报告中还移除了那段虚构的法官引文。
德勤澳大利亚表示将退还其与政府合同的最后一期款项,但未明确说明这一退款占总合同金额的比例。DEWR的一位发言人告诉《澳大利亚金融评论》称,"独立审查的内容得以保留,建议内容没有变化。"
专业质疑与行业影响
然而,悉尼大学的鲁奇教授对这一解释持怀疑态度。他向《澳大利亚金融评论》表示:"当报告的基础建立在有缺陷的、最初未披露的且非专业的方法之上时,你无法信任其中的建议...德勤承认使用生成式AI进行核心分析工作,但最初并未披露这一点。"
这一事件引发了专业服务行业对AI应用透明度和责任的重要讨论。作为全球顶级咨询公司,德勤在报告中使用AI技术却不明确披露的做法,被视为对客户和公众的不负责任行为。
AI幻觉问题的普遍性
德勤事件并非孤例。随着大语言模型(LLM)在各行各业的广泛应用,"AI幻觉"问题日益凸显。AI系统有时会生成看似合理但实际上完全虚假的信息,包括虚构的人物、事件、数据和引用。
在专业咨询、法律、医疗等高风险领域,AI幻觉可能导致严重的后果。例如,在法律文件中引用不存在的判例,或在医疗报告中提及未经证实的治疗方法,都可能对客户造成实质性损害。
行业责任与监管挑战
德勤事件暴露了专业服务行业在采用AI技术时面临的责任和透明度挑战。咨询公司有义务向客户明确告知AI在其服务中的使用情况,特别是当AI用于核心分析工作而非辅助性任务时。
同时,这也对监管机构提出了新的挑战。如何确保专业咨询公司在使用AI技术时保持适当的透明度,如何评估AI生成内容的质量和可靠性,以及如何界定AI使用不当时的责任归属,都是亟待解决的问题。
未来展望:AI与专业服务的融合
尽管存在风险,AI技术仍将为专业服务行业带来巨大变革。德勤事件不应被视为对AI应用的否定,而应被视为行业学习如何负责任地采用新技术的契机。
未来,专业咨询公司可能需要建立更严格的AI使用指南,包括:
- 明确披露AI在服务中的使用情况
- 对AI生成内容进行严格的人工审核
- 建立AI幻觉的检测和纠正机制
- 为客户提供关于AI使用的明确选择权
结语
德勤澳大利亚的AI幻觉事件为整个专业服务行业敲响了警钟。随着AI技术在专业领域的深入应用,企业需要在创新与责任之间找到平衡点。透明度、问责制和适当的监管将是确保AI技术以负责任方式应用的关键。对于依赖专业服务的政府和商业客户而言,这一事件也提醒他们在选择服务提供商时,需要更加关注其AI使用政策和实践。