科学记者测试:ChatGPT在论文摘要中的准确性与局限性

1

在当今信息爆炸的时代,将复杂的科学发现转化为非专业人士能够理解的内容,是科学记者日常工作中最重要的任务之一。同时,生成复杂文本的摘要也被广泛认为是大型语言模型(LLM)的最佳应用场景之一。然而,美国科学促进会(AAAS)最新进行的一项为期一年的研究表明,尽管ChatGPT能够模仿科学新闻简报的结构,但在准确性方面存在明显缺陷。

研究背景与目的

美国科学促进会的"SciPak"团队定期为《科学》杂志及EurekAlert等服务撰写"新闻简报",这些简报遵循特定的简化格式,传达研究的前提、方法和背景等关键信息,以便其他记者可能基于此进行报道。为了评估ChatGPT是否能胜任这项工作,AAAS团队从2023年12月到2024年12月进行了一项非正式研究。

科学记者工作场景

研究方法

研究人员每周选择多达两篇论文,使用三种不同具体程度的提示让ChatGPT进行摘要。研究重点聚焦于包含技术术语、争议性见解、突破性发现、人类受试者或非传统格式等难点的论文。测试使用了研究期间最新公开可用的GPT模型"Plus"版本,主要涵盖了GPT-4和GPT-4o时代。

在总计64篇论文的摘要中,由撰写相同论文SciPak简报的同一批SciPak作家进行定量和定性评估。研究人员指出,这种设计"无法考虑人类偏见",特别是在记者评估可能取代其核心工作职能的工具时。

研究结果

定量评估

定量调查结果相当一边倒。在ChatGPT摘要"是否可以融入您的摘要系列"的问题上,平均得分仅为2.26(1-5分制,1分表示"完全不",5分表示"绝对可以")。在摘要是否"引人入胜"的问题上,LLM摘要平均得分仅为2.14。在这两个问题上,只有一份摘要获得了人类评估员的"5"分,相比之下却有30个"1"分评价。

定性评估

作家们对个别摘要的定性评估显示,ChatGPT经常混淆相关性与因果性,未能提供背景信息(例如,执行器往往非常缓慢),并且倾向于过度使用"突破性"和"新颖"等词语来夸大结果(尽管当提示特别指出这一点时,这种行为有所减少)。

AI与人类摘要对比

ChatGPT的优势与不足

研究人员发现,ChatGPT通常擅长"转录"科学论文中写下的内容,特别是当论文没有太多细微差别时。但大型语言模型在"翻译"这些研究发现方面表现较弱,无法深入探讨方法论、局限性或宏观影响。这些弱点在提供多个不同结果的论文中尤为明显,或者当被要求将两篇相关论文总结为一个简报时。

尽管ChatGPT摘语的语调和风格通常与人类撰写的内容相匹配,但"对LLM撰写内容事实准确性的担忧"普遍存在。记者们补充说,即使将ChatGPT摘要作为人类编辑的"起点",由于需要"广泛的事实核查",所需的工作量"与从头起草摘要相当,甚至更多"。

行业影响与未来展望

考虑到先前研究表明AI搜索引擎错误引用新闻来源的频率高达60%,这些结果或许并不令人意外。然而,在讨论科学论文时,这些特定弱点显得尤为突出,因为准确性和沟通清晰度至关重要。

科学写作挑战

最终,AAAS记者得出结论,ChatGPT"不符合SciPak新闻包中简报的风格和标准"。但白皮书指出,如果ChatGPT"经历重大更新",再次进行实验可能是值得的。值得一提的是,GPT-5已于2025年8月向公众发布。

科学传播的未来

这项研究揭示了当前AI技术在科学传播领域的局限性,同时也为科学记者提供了宝贵见解。在科学传播中,准确性、上下文理解和适当的专业语言使用至关重要,这些都是当前AI技术难以完全掌握的。

随着AI技术的不断发展,我们可能会看到未来版本在科学摘要方面的改进。然而,在可预见的未来,人类科学记者的专业知识、批判性思维和对科学细节的深入理解,仍然是确保科学信息准确传播的关键。

结论

AAAS的研究清楚地表明,尽管ChatGPT在模仿科学新闻简报结构方面表现尚可,但在准确性方面存在严重不足。科学记者在将复杂科学发现转化为易于理解的新闻内容时,仍然发挥着不可替代的作用。这项研究提醒我们,在拥抱AI技术的同时,不应忽视人类专业知识和批判性思维在科学传播中的重要性。