科学记者发现ChatGPT难以准确总结学术论文

1

为非专业受众总结复杂的科学发现是科学记者日常工作中最重要的事情之一。生成复杂文本的摘要也被频繁提及作为大型语言模型(LLM)的最佳用例之一,尽管存在一些突出的反例。

基于这一背景,美国科学促进会(AAAS)团队进行了一项为期一年的非正式研究,旨在确定ChatGPT是否能为其《科学》期刊和EurekAlert等服务撰写的"SciPak"式新闻摘要提供类似质量。这些SciPak文章旨在遵循特定且简化的格式,传达关键信息,如研究前提、方法和背景,给可能希望撰写相关报道的其他记者。

研究方法与发现

从2023年12月到2024年12月,AAAS研究人员每周选择最多两篇论文,使用三种不同具体程度的提示让ChatGPT进行总结。团队重点关注具有困难元素的论文,如技术术语、争议性见解、突破性发现、人类受试者或非传统格式。测试使用了研究期间最新公开发布的"Plus"版GPT模型,通常涵盖了GPT-4和GPT-4o时代。

AI科学摘要研究

在总计64篇论文的摘要中,这些摘要由撰写过相同论文摘要的SciPak作者进行了定量和定性评估。研究人员指出,这种设计"无法考虑人类偏见",我们可能会认为,在评估可能取代其核心工作职能的工具的记者中,这种偏见可能相当显著。

然而,记者之间的定量调查结果相当一边倒。关于ChatGPT摘要"是否能够融入您的摘要系列中"的问题,平均摘要得分仅为2.26(1-5分,1分为"完全不",5分为"绝对可以")。关于摘要是否"引人入胜"的问题,LLM摘要在同尺度上平均仅为2.14分。在这两个问题上,只有一篇摘要获得了人类评估员的"5"分,相比之下有30次评分为"1"。

质量问题与局限性

作者还被要求撰写对所评估摘要的定性评估。在这些评估中,作者抱怨ChatGPT经常混淆相关性与因果关系,未能提供背景(例如,致动器往往非常缓慢),并且倾向于过度使用"突破性"和"新颖"等词汇来过度炒作结果(尽管当提示特别指出这一点时,这种行为有所减少)。

总体而言,研究人员发现ChatGPT通常擅长"转录"科学论文中写下的内容,特别是如果该论文没有太多细微差别的话。但LLM在"翻译"这些发现方面表现较弱,无法深入探讨方法论、局限性或宏观影响。这些弱点在提供多个不同结果的论文中尤为明显,或者当被要求将两篇相关论文总结为一个摘要时。

AI摘要质量评估

尽管ChatGPT摘要的语调和风格通常与人类撰写的内容相匹配,但"对LLM生成内容事实准确性的担忧"普遍存在,记者们写道。他们补充说,即使将ChatGPT摘要用作人类编辑的"起点",由于需要"广泛的事实核查",所需的工作量"与从头开始起草摘要一样多,甚至更多"。

考虑到先前的研究显示AI搜索引擎引用错误新闻来源的比例高达60%,这些结果可能并不令人意外。然而,在讨论科学论文时,这些具体弱点更加明显,因为准确性和清晰沟通至关重要。

专业评估与行业影响

科学新闻写作是一门需要特定技能的艺术,它要求记者能够理解复杂的研究,同时将其转化为普通读者可以理解的叙述。AAAS的研究强调了这一领域的专业价值,即使是先进的AI系统也难以完全复制。

科学记者工作场景

科学记者不仅需要理解研究的细节,还需要了解其更广泛的背景和意义。他们必须能够识别研究的局限性,避免过度解读结果,并以平衡的方式呈现争议性发现。这些都是AI系统当前难以掌握的微妙之处。

此外,科学记者通常与研究人员直接沟通,澄清模糊点,获取额外见解,并确保准确呈现。这种人际互动对于高质量的科技新闻至关重要,也是当前AI无法替代的。

技术发展与未来展望

尽管当前结果令人失望,但研究人员指出,如果ChatGPT"经历重大更新",可能值得重新进行实验。值得注意的是,GPT-5已于2025年8月向公众发布。

大型语言模型在科学传播领域的潜力仍然存在,但需要克服当前的局限性。未来的AI系统可能需要更好地理解科学方法、统计学原理和学术伦理,才能真正成为科学记者的有效工具。

结论

在可预见的未来,科学论文摘要的撰写仍将是人类科学记者的核心工作。虽然AI可以作为辅助工具,帮助处理某些任务,但完全依赖AI生成摘要仍存在太多风险和局限性。科学记者的专业技能、批判性思维和领域知识目前仍然是确保科学信息准确传播的关键因素。

随着AI技术的不断发展,科学新闻行业需要找到人类专业知识和机器智能之间的平衡点,利用各自的优势,为公众提供更准确、更有深度的科学报道。