科学记者发现ChatGPT难以准确概括学术论文

2

在当今信息爆炸的时代,如何将复杂的科学发现转化为普通读者能够理解的内容,成为科学传播领域的重要挑战。大型语言模型(LLM)被广泛视为解决这一问题的潜在工具,但美国科学促进会(AAAS)最新发布的一项研究却给出了不同的答案。

研究背景与方法

美国科学促进会的"SciPak"团队负责为《科学》杂志及EurekAlert等服务撰写新闻简报,这些简报采用特定且简化的格式,向其他记者传达研究的前提、方法和背景等关键信息。从2023年12月到2024年12月,AAAS的研究人员每周选择最多两篇论文,使用三种不同详细程度的提示让ChatGPT进行摘要。

研究团队特别关注那些包含技术术语、争议性见解、突破性发现、人类受试者或非传统格式的论文。测试使用了研究期间最新公开发布的GPT模型的"Plus"版本,主要涵盖了GPT-4和GPT-4o时代的产品。总计有64篇论文被纳入研究摘要范围。

研究发现:AI摘要的局限性

研究人员发现,虽然ChatGPT"能够模拟SciPak风格简报的结构",但其内容"往往为了简化而牺牲准确性",需要"SciPak作者进行严格的事实核查"。

定量评估结果

参与评估的SciPak记者对ChatGPT摘要的评价相当一致。在问题"这些摘要是否可以融入您的摘要系列中"上,AI摘要的平均得分仅为2.26分(1-5分制,1分表示"完全不",5分表示"绝对可以")。在问题"这些摘要是否具有吸引力"上,AI摘要的平均得分更低,仅为2.14分。在这两个问题上,只有一份摘要获得了人类评估员的最高分5分,而有30份摘要获得了最低分1分。

质性评估发现

记者们在质性评估中指出了ChatGPT摘要的多个问题:

  1. 混淆相关性与因果关系:AI经常错误地将相关性表述为因果关系。
  2. 缺乏背景信息:未能提供必要的背景信息,例如"软驱动器通常非常缓慢"这样的关键细节。
  3. 过度夸大结果:过度使用"突破性"和"新颖"等词汇,尽管当提示特别指出这一点时,这种行为有所改善。

AI摘要的优势与不足

研究人员发现,ChatGPT通常擅长"转录"科学论文中已有的内容,特别是当论文本身没有太多细微差别时。然而,在"翻译"研究成果方面,AI表现较弱,特别是在深入探讨方法论、局限性或宏观影响方面。这些弱点在论文提供多个不同结果,或者当被要求将两篇相关论文合并为一个简报时尤为明显。

尽管ChatGPT摘要的语调和风格通常与人类撰写的内容相匹配,但记者们写道:"对LLM生成内容事实准确性的担忧普遍存在"。他们补充说,即使将ChatGPT摘要作为"起点"进行人工编辑,"由于需要广泛的事实核查,所需的工作量与从头开始撰写摘要相当,甚至更多"。

科学传播的特殊挑战

这些发现可能并不令人意外,因为先前的研究已经显示AI搜索引擎引用错误新闻源的比例高达60%。然而,在讨论科学论文时,这些特定弱点显得尤为突出,因为准确性和沟通清晰度至关重要。

科学传播与一般新闻报道不同,它需要:

  1. 精确的术语使用:科学概念和术语的准确性至关重要
  2. 适当的语境提供:帮助非专业读者理解研究的背景和意义
  3. 批判性评估:评估研究的局限性和潜在影响
  4. 避免过度简化:在保持可读性的同时不牺牲科学严谨性

研究结论与未来展望

AAAS的记者们最终得出结论,ChatGPT"不符合SciPak新闻包中简报的风格和标准"。然而,白皮书也指出,如果ChatGPT"经历重大更新",再次进行这项实验可能是值得的。

值得注意的是,GPT-5已于2025年8月向公众发布。这一新版本是否能够解决先前研究中发现的问题,仍有待观察。

科学传播中人类价值的重新确认

这项研究不仅评估了AI工具的能力,更重要的是重新确认了人类科学记者的独特价值。在科学传播领域,人类记者能够:

  1. 理解科学细微差别:把握复杂科学概念中的微妙之处
  2. 批判性评估:对研究结果进行独立思考和评估
  3. 提供适当背景:将新发现置于更广泛的科学背景中
  4. 识别潜在偏见:发现研究中可能存在的偏见或局限性
  5. 创造性地简化:在不牺牲准确性的前提下,找到创新的简化方式

对科学写作实践的启示

这项研究对科学写作实践提出了几点重要启示:

  1. AI作为辅助工具而非替代品:当前AI更适合作为科学写作的辅助工具,而非完全替代人类作者
  2. 事实核查的必要性:任何AI生成的内容都需要严格的事实核查
  3. 专业培训的重要性:科学记者需要接受更专业的培训,以批判性地评估AI生成的内容
  4. 开发特定提示:针对科学写作开发更精确、更专业的提示词
  5. 保持人类判断:在科学传播中,人类判断和专业知识仍然不可或缺

未来研究方向

基于这项研究,未来的研究方向可能包括:

  1. 评估最新AI模型:测试GPT-5等新一代模型在科学摘要方面的表现
  2. 开发科学写作专用AI:专门为科学传播定制的AI工具
  3. 人机协作模式探索:研究如何更有效地将AI与人类专业能力结合
  4. 跨学科比较研究:比较不同科学领域(如医学、物理、社会科学)中AI摘要的表现差异
  5. 长期影响评估:评估AI在科学传播中的长期影响和潜在变革

结论

尽管AI技术正在快速发展,但在科学传播这一需要高度准确性和专业知识的领域,人类科学记者的专业能力仍然不可替代。ChatGPT等工具可能在某些辅助任务中发挥作用,但就目前而言,它们无法满足科学新闻简报的高标准要求。

这项研究提醒我们,在拥抱新技术的同时,不应低估人类专业知识和判断力在科学传播中的价值。未来,科学记者需要学会如何有效地利用AI工具,同时保持自身的批判性思维和专业标准,以确保科学信息的准确传播和理解。