科学记者发现ChatGPT难以准确总结学术论文：AI与人类专业能力的较量

在当今信息爆炸的时代，将复杂的科学发现转化为通俗易懂的内容是科学记者的核心职责之一。同时，生成复杂文本的摘要也被广泛认为是大型语言模型(LLM)的最佳应用场景之一。然而，美国科学促进会(AAAS)最新发布的一项研究却对此提出了质疑，他们发现ChatGPT在总结科学论文方面存在明显不足。

研究背景与方法论

从2023年12月到2024年12月，AAAS研究团队进行了一项为期一年的非正式研究，旨在评估ChatGPT是否能替代其"SciPak"团队为《科学》杂志及EurekAlert等服务撰写的新闻简报。这些SciPak文章遵循特定简化格式，向可能报道该研究的记者传达研究前提、方法和背景等关键信息。

研究团队每周选择多达两篇论文，使用三种不同具体程度的提示让ChatGPT进行摘要。他们特别关注包含技术术语、争议性见解、突破性发现、人类受试者或非传统格式等难点的论文。测试使用了研究期间最新公开发布的GPT模型的"Plus"版本，主要涵盖了GPT-4和GPT-4o时代。

在总计64篇论文的摘要评估中，由相同的SciPak撰稿人对这些摘要进行了定量和定性评估。这些撰稿人此前也曾为AAAS简要介绍过这些论文。

研究结果：AI摘要的局限性

定量调查结果显示，科学记者们对ChatGPT摘要的评价相当一致。在ChatGPT摘要"是否可以融入其余摘要序列"的问题上，平均得分仅为2.26（1-5分，1代表"完全不"，5代表"绝对可以"）。在摘要是否"引人入胜"的问题上，LLM摘要平均得分为2.14。在这两个问题上，只有一份摘要获得了人类评估员的"5"分，而"1"分的评价则有30个。

定性评估中，撰稿人抱怨ChatGPT经常混淆相关性与因果关系，未能提供背景信息（例如，软执行器通常非常缓慢），并且倾向于过度使用"突破性"和"新颖"等词汇来夸大结果（尽管当提示特别指出这一点时，这种行为有所减少）。

总体而言，研究人员发现ChatGPT通常能够"转录"科学论文中写下的内容，特别是当论文没有太多细微差别时。但LLM在"翻译"这些研究发现方面表现较弱，无法深入探讨方法论、局限性或宏观影响。这些弱点在论文提供多个不同结果时，或当被要求将两篇相关论文摘要为一个简报时尤为明显。

准确性问题的严重性

尽管ChatGPT摘要的语调和风格通常与人类撰写的内容相匹配，但"对LLM生成内容事实准确性的担忧"普遍存在，记者们写道。他们补充说，即使将ChatGPT摘要作为人类编辑的"起点"，由于需要"大量事实核查"，所需的工作量"与从头起草摘要相当，甚至更多"。

考虑到之前的研究显示AI搜索引擎引用错误新闻来源的比例高达60%，这些结果或许不会太令人惊讶。然而，在讨论科学论文时，这些特定弱点显得尤为突出，因为准确性和沟通清晰度至关重要。

科学传播的挑战与机遇

科学传播在现代社会中扮演着至关重要的角色，它连接着专业科学界与广大公众。科学记者作为这一传播链的关键环节，需要具备将复杂科学概念转化为通俗语言的能力，同时保持信息的准确性和完整性。

科学传播

科学传播：连接专业研究与公众理解的桥梁

AI工具如ChatGPT的出现为科学传播带来了新的可能性。理论上，这些工具可以帮助记者处理大量信息，快速生成初稿，从而提高工作效率。然而，AAAS的研究表明，在科学传播这一对准确性要求极高的领域，AI目前的表现尚不足以替代人类专业记者。

人机协作的未来

尽管研究结果令人失望，但AAAS记者们并未完全排除AI在科学写作中的潜在价值。他们在白纸中提到，如果ChatGPT"经历重大更新"，可能值得再次进行实验。事实上，GPT-5已在2025年8月向公众发布。

这提示我们，未来科学写作领域可能不是AI与人类的对立，而是人机协作的新模式。AI可以作为辅助工具，帮助记者处理初步信息、生成框架性内容，而人类专家则负责确保准确性、提供深度分析和注入人文关怀。

科学记者的专业价值

AAAS的研究结果实际上凸显了科学记者的专业价值所在。在科学传播中，人类记者能够:

准确理解科学语境：把握研究的背景、局限性和意义
识别因果关系：避免将相关性误认为因果关系的常见错误
平衡报道：既不过度夸大研究结果，也不低估其重要性
提供批判性视角：评估研究方法的可靠性和结论的普适性
融入人文关怀：将科学发现与社会影响、伦理考量相结合

科学记者工作

科学记者：在准确性与可读性之间寻找平衡

对科学媒体的启示

对于科学媒体而言，这项研究提出了几个重要启示：

审慎采用AI工具：在科学报道领域，AI应作为辅助工具而非替代品
强化事实核查流程：任何AI生成的内容都需要严格的事实核查
投资记者培训：培养记者的科学素养和批判性思维能力比以往更加重要
明确披露AI使用：向读者透明地说明哪些内容是由AI生成的
关注技术发展：持续评估新一代AI模型在科学传播中的表现

科学写作的艺术与科学

科学写作既是一门艺术，也是一门科学。优秀的科学报道需要在科学准确性和可读性之间找到平衡点，既要尊重科学事实，又要吸引普通读者的注意力。

科学写作平衡

科学写作：在准确性与吸引力之间寻找平衡

这种平衡需要人类记者具备深厚的科学知识、敏锐的新闻嗅觉和出色的文字表达能力。目前，AI在这些方面仍难以与人类记者匹敌。

结论：AI与人类互补而非替代

AAAS的研究清楚地表明，尽管ChatGPT等AI工具在科学写作中展现了一定潜力，但目前它们无法达到科学传播所需的标准和准确性要求。科学记者的专业知识和判断力在确保科学信息准确传播方面仍然不可替代。

然而，这并不意味着AI在科学写作中没有未来。随着技术的不断进步，AI很可能会成为科学记者的强大辅助工具，帮助他们提高工作效率，处理更多复杂信息。未来的科学传播很可能是AI与人类记者协作的结果，各展所长，共同推动科学知识向公众的有效传播。

在这个信息爆炸但注意力稀缺的时代，高质量的科学传播比以往任何时候都更加重要。科学记者作为科学与社会之间的桥梁，其专业价值不仅不会因AI的出现而减少，反而可能因为能够借助AI工具处理更多信息而得到增强。关键在于如何明智地利用这些新技术，而不是被它们所取代。