科学记者测试:ChatGPT在科研论文摘要中的准确性与局限性

2

将复杂的科学研究成果转化为非专业受众能够理解的内容,是科学记者日常工作的重要组成部分。同时,生成复杂文本的摘要也被广泛认为是大型语言模型(LLM)的最佳应用场景之一。然而,美国科学促进会(AAAS)最新发布的一项研究却对这一观点提出了质疑。

研究背景与方法

从2023年12月到2024年12月,AAAS的研究团队进行了一项非正式的一年期研究,旨在确定ChatGPT能否产出其"SciPak"团队为《科学》杂志及EurekAlert等服务机构撰写的新闻简报。这些SciPak文章遵循特定且简化的格式,传达关键信息,如研究前提、方法和背景,给可能报道该研究的其他记者。

AI与科学写作

研究团队每周最多选择两篇论文,使用三种不同详细程度的提示要求ChatGPT进行摘要。研究重点聚焦于具有困难元素的论文,如技术术语、争议性见解、突破性发现、人类受试者或非传统格式。测试使用了研究期间最新公开的GPT模型的"Plus"版本,主要涵盖GPT-4和GPT-4o时代。

研究发现

在总计64篇论文的摘要评估中,AAAS记者对ChatGPT的摘要进行了定量和定性评估。定量调查结果相当一边倒:当被问及ChatGPT摘要"是否可以融入您的摘要系列"时,平均得分仅为2.26(1-5分制,1分为"完全不",5分为"绝对可以")。在摘要是否"引人入胜"的问题上,ChatGPT摘要平均得分仅为2.14。在这两个问题上,只有一份摘要获得了人类评估员的"5"分,而"1"分的评价则有30个。

科学写作与AI

主要问题

记者们在定性评估中指出了ChatGPT摘要的几个主要问题:

  1. 混淆相关性与因果性:AI经常错误地将相关性表述为因果关系。
  2. 缺乏背景信息:未能提供必要的背景信息,例如软执行器通常非常缓慢。
  3. 过度炒作结果:过度使用"突破性"和"新颖"等词汇,尽管当提示特别指出这一问题时,这种行为有所减少。

研究人员发现,ChatGPT通常擅长"转录"科学论文中已写明的内容,特别是当论文缺乏细微差别时。但LLM在"翻译"这些研究发现,深入探讨方法、局限性或宏观影响方面表现较弱。这些弱点在论文提供多个不同结果,或当被要求将两篇相关论文合并为一个简报时尤为明显。

专业评估

尽管ChatGPT摘要的语调和风格常与人类撰写的内容相匹配,但"对LLM撰写内容事实准确性的担忧"普遍存在。记者们补充说,即使将ChatGPT摘要作为"起点"进行人工编辑,"也需要与从头起草摘要同样,甚至更多的精力",因为需要进行"广泛的事实核查"。

AI与人类写作对比

考虑到先前研究表明AI搜索引擎引用错误新闻源的比例高达60%,这些结果或许并不令人意外。然而,在讨论科学论文时,这些具体弱点尤为明显,因为准确性和清晰的沟通至关重要。

结论与展望

最终,AAAS记者得出结论,ChatGPT"不符合SciPak新闻包中简报的风格和标准"。但白皮书也指出,如果ChatGPT"经历重大更新",再次进行实验可能是值得的。值得一提的是,GPT-5已于2025年8月向公众推出。

科学写作的未来

这项研究揭示了当前AI在科学传播领域的局限性,强调了人类科学记者在准确解读和传播科学知识方面的不可替代价值。虽然AI可以作为辅助工具,但在科学新闻领域,人类的批判性思维、专业背景知识和对科学严谨性的坚持仍然是不可或缺的。

对科学传播的启示

这项研究对科学传播领域提供了重要启示:

  1. 人机协作模式:AI可能更适合作为科学记者的辅助工具,而非替代品,帮助处理初步信息整理和格式化工作。
  2. 专业培训的重要性:科学记者的专业培训应更加注重批判性思维和科学素养,以识别和纠正AI可能产生的错误。
  3. 透明度与伦理:在使用AI辅助科学传播时,需要明确标注AI参与的部分,并建立严格的审核机制。

随着AI技术的不断发展,科学传播领域需要不断探索人机协作的最佳模式,以确保科学信息的准确、清晰和有效传播。