AI科学摘要:人类记者为何仍不可替代?

1

在当今信息爆炸的时代,将复杂的科学发现转化为易于理解的摘要,已成为科学记者日常工作中最为重要的任务之一。大型语言模型(LLM)被广泛认为是自动生成此类内容的理想工具,但美国科学促进会(AAAS)最新进行的一项为期一年的研究却揭示了令人意外的结果:ChatGPT在科学论文摘要撰写方面表现不佳,远未达到专业标准。

研究背景与方法

美国科学促进会的"SciPak"团队长期为《科学》杂志及EurekAlert等服务撰写科学新闻简报,这些简报遵循特定格式,清晰传达研究的假设、方法和背景信息,供其他记者参考。为了评估AI在这一领域的表现,AAAS研究团队从2023年12月至2024年12月期间,每周选取多达两篇论文,使用三种不同详细程度的提示让ChatGPT进行摘要。

研究团队特别关注那些包含技术术语、争议性见解、突破性发现、人类受试者或非传统格式的论文。测试使用了当时最新的公开可用GPT模型"Plus"版本,涵盖了GPT-4和GPT-4o时代。总计64篇论文被纳入研究摘要,并由撰写原始SciPak简报的同一批记者进行定量和定性评估。

量化评估结果

记者们的量化评估结果相当一致且负面。在"ChatGPT摘要是否可以无缝融入您现有的摘要系列"这一问题中,平均得分仅为2.26(1-5分制,1分表示"完全不行",5分表示"绝对可以")。在摘要是否"有说服力"方面,ChatGPT生成的摘要平均得分仅为2.14。在这两个问题上,只有一份摘要获得了人类评估员的"5分"评价,而"1分"评价则高达30次。

这些数据清晰地表明,尽管ChatGPT能够模仿科学摘要的基本结构,但其质量远未达到专业标准,难以融入科学记者的日常工作流程。

定性评估发现

记者们在定性评估中指出了ChatGPT摘要的多个关键问题:

  1. 混淆相关性与因果关系:AI经常错误地将相关性表述为因果关系,这是科学报道中需要严格避免的逻辑错误。

  2. 缺乏背景信息:例如,当讨论软执行器时,ChatGPT未能提供这类设备通常速度很慢的重要背景信息。

  3. 过度使用夸张词汇:AI倾向于过度使用"突破性"、"新颖"等词汇,尽管这一行为在提示特别指出后会减少。

  4. 转录而非翻译:ChatGPT通常擅长"转录"论文中已有的内容,特别是在论文本身缺乏细微差别的情况下,但在"翻译"这些发现,深入探讨方法论、局限性或宏观影响方面表现较弱。

  5. 处理复杂结果困难:当论文提供多个不同结果,或被要求将两篇相关论文合并为一个摘要时,ChatGPT的表现尤为不佳。

准确性问题的严重性

尽管ChatGPT生成的摘要在语调和风格上往往与人工撰写的内容相匹配,但"对LLM生成内容事实准确性的担忧"普遍存在。记者们指出,即使将ChatGPT摘要作为人工编辑的"起点",由于需要"广泛的事实核查",所需的工作量"与从头撰写摘要相当,甚至更多"。

科学论文摘要比较

这些发现在科学传播领域尤为令人担忧,因为准确性和沟通清晰度至关重要。考虑到先前研究表明AI搜索引擎引用错误新闻来源的比例高达60%,ChatGPT在科学摘要中的局限性显得尤为突出。

研究局限性与未来展望

研究团队承认,他们的研究设计"无法考虑人类偏见",这在记者评估可能取代其核心工作职能的工具时可能是一个重要因素。此外,研究使用了当时可用的GPT模型,而技术正在快速发展。

AAAS记者在最终结论中指出,ChatGPT"不符合SciPak新闻包中简报的风格和标准"。然而,白皮书也指出,如果ChatGPT"经历重大更新",可能值得重新进行实验。值得注意的是,GPT-5已于2025年8月向公众发布。

人工智能与科学传播的未来

这项研究并不意味着AI在科学传播中没有价值。相反,它强调了人工智能作为辅助工具而非替代品的潜力。科学记者可以利用AI处理初步信息筛选、草拟框架或识别关键点,但最终的责任仍需由人类承担,以确保信息的准确性和完整性。

科学记者工作场景

随着AI技术的不断发展,科学传播领域也需要不断调整和适应。未来的科学记者可能需要掌握与AI协作的新技能,同时坚守科学准确性和批判性思维的核心价值。这项研究提醒我们,在追求效率的同时,不应牺牲科学传播的准确性和深度。

结论

AAAS的研究明确表明,尽管ChatGPT等大型语言模型在科学摘要生成方面展现出一定潜力,但在当前阶段,它们远未达到专业科学记者的标准。准确性、背景理解、逻辑推理和批判性分析等核心能力,仍然是人类专业记者的独特优势。

在科学传播这一对准确性和清晰度要求极高的领域,AI可以作为强大的辅助工具,但无法完全取代人类记者的判断力和专业知识。随着技术的进步,科学记者与AI的协作模式可能会不断演变,但人类在科学传播中的核心地位短期内仍不可替代。