科学记者实验:ChatGPT在论文摘要中的致命缺陷

1

科学记者日常工作中最重要的一项任务是将复杂的科学发现总结为非专业人士也能理解的内容。大型语言模型(LLM)生成复杂文本摘要的能力也常被提及作为其最佳应用场景之一。然而,美国科学促进会(AAAS)最新进行的一项为期一年的研究表明,ChatGPT在这一关键领域的表现远未达到专业标准。

研究背景与方法

从2023年12月到2024年12月,AAAS研究团队每周选择多达两篇论文,使用三种不同详细程度的提示让ChatGPT进行摘要。研究团队重点关注包含技术术语、争议性见解、突破性发现、人类受试者或非传统格式等困难元素的论文。测试使用了研究期间最新公开的"Plus"版GPT模型,涵盖了GPT-4和GPT-4o时代。

AI快讯

总计64篇论文被生成摘要,并由撰写这些论文SciPak简报的同一批科学记者进行定量和定性评估。研究人员指出,这种设计"无法考虑人类偏见",特别是在记者评估可能取代其核心工作职能的工具时。

令人失望的定量结果

记者们的定量调查结果相当一边倒。关于ChatGPT摘要"是否可以无缝融入您的摘要系列"的问题,平均得分仅为2.26分(1-5分制,1分为"完全不",5分为"绝对可以")。关于摘要是否"引人入胜"的问题,LLM摘要的平均分仅为2.14分。在这两个问题上,只有一份摘要获得了人类评估员的"5"分,相比之下,有30个评分为"1"。

定性评估揭示的关键缺陷

记者们还被要求撰写对所评估摘要的定性评估。在这些评估中,记者们抱怨ChatGPT经常混淆相关性与因果关系,未能提供背景信息(例如,执行器往往非常缓慢),并且倾向于过度炒作结果,过度使用"突破性"和"新颖"等词汇(尽管当提示特别指出这一点后,这种行为有所减少)。

AI快讯

研究人员发现,ChatGPT通常擅长"转录"科学论文中写下的内容,特别是当论文没有太多细微差别时。但LLM在"翻译"这些研究发现方面表现较弱,无法深入探讨方法论、局限性或宏观影响。这些弱点在提供多个不同结果的论文中尤为明显,或者当被要求将两篇相关论文总结为一个简报时。

准确性问题的严重性

尽管ChatGPT摘要的语调和风格通常与人类撰写的内容相匹配,但"对LLM撰写内容事实准确性的担忧"普遍存在,记者们写道。他们补充说,即使将ChatGPT摘要作为人类编辑的"起点",也需要"大量事实核查",所需工作量"与从头开始撰写摘要相当,甚至更多"。

考虑到先前的研究显示AI搜索引擎引用错误新闻来源的比例高达60%,这些结果或许并不令人意外。然而,在讨论科学论文时,这些特定弱点更加明显,因为准确性和沟通清晰度至关重要。

专业标准的差距

AI快讯

AAAS记者最终得出结论,ChatGPT"不符合SciPak新闻包中简报的风格和标准"。然而,白皮书也指出,如果ChatGPT"经历重大更新",可能值得重新进行实验。值得一提的是,GPT-5已于2025年8月向公众推出。

科学写作中人类价值的重要性

这项研究凸显了科学写作中人类判断和专业知识的重要性。科学摘要不仅仅是信息的传递,还需要对科学背景的深刻理解、对研究局限性的认识以及对科学意义的恰当解读。这些都是当前AI系统难以完全复制的。

对AI发展的启示

虽然ChatGPT在科学论文摘要方面的表现令人失望,但这并不意味着AI在科学传播中没有价值。相反,这一研究为AI开发者提供了明确的方向:提高模型在处理复杂科学概念时的准确性、减少过度简化、增强对研究局限性的理解能力,以及改进对相关性与因果关系的区分能力。

结论

AAAS的研究清楚地表明,尽管大型语言模型在科学写作领域显示出潜力,但它们目前还无法取代专业科学记者在撰写准确、有深度的论文摘要方面的作用。科学写作不仅仅是信息的重组,还需要对科学方法的深刻理解、对研究背景的把握以及对科学意义的恰当诠释。这些人类特有的能力确保了科学传播的准确性和可靠性。

随着AI技术的不断发展,特别是GPT-5等新一代模型的推出,科学记者与AI工具之间的关系可能会发生变化。但目前而言,科学写作的核心价值仍然掌握在那些能够理解科学复杂性并将其转化为清晰、准确内容的人类专家手中。