科学记者面临一个日益严峻的挑战:如何在保证科学准确性的同时,将复杂的研究发现转化为普通读者能够理解的内容。这一传统上需要人类专业记者判断力和专业知识的任务,如今正被人工智能工具如ChatGPT所觊觎。然而,美国科学促进会(AAAS)最新发布的一项为期一年的研究结果表明,当前AI技术在这一关键领域仍存在显著局限性。
研究背景与方法
从2023年12月到2024年12月,AAAS的研究团队进行了一项非正式研究,旨在评估ChatGPT能否为其"SciPak"团队撰写的科学论文新闻简报提供替代方案。这些SciPak文章专为《科学》期刊和EurekAlert等服务设计,采用特定简化格式,向其他记者传达研究的假设、方法和背景等关键信息。
研究团队每周选择多达两篇论文,使用三种不同具体程度的提示让ChatGPT进行摘要。测试重点集中在包含技术术语、争议性见解、突破性发现、人类受试者或非传统格式等困难元素的论文上。测试使用了研究期间最新公开的GPT模型"Plus"版本,涵盖了GPT-4和GPT-4o时代。
在总共64篇论文的摘要被生成后,由相同的SciPak作家进行定量和定性评估。这些作家正是那些为AAAS撰写这些论文简报的专业人士。
研究发现:AI与人类的专业差距
量化评估结果
评估结果清晰地揭示了ChatGPT生成内容与人类专业标准之间的差距。当被问及ChatGPT摘要"是否可以融入您的摘要系列"时,平均评分仅为2.26分(1-5分制,1分代表"完全不",5分代表"绝对可以")。在摘要是否"引人入胜"方面,LLM摘要平均得分仅为2.14分。在这两个问题上,只有一份摘要获得了人类评估员的"5"分评价,而"1"分的评价则有30个。
质性评估问题
科学记者在定性评估中指出了多个关键问题:
混淆相关性与因果关系:ChatGPT经常错误地将相关性表述为因果关系,这是科学报道中需要严格避免的逻辑错误。
缺乏背景信息:AI未能提供必要的背景信息,例如"软致动器通常非常缓慢"这样的关键上下文。
过度炒作结果:AI倾向于过度使用"突破性"、"新颖"等词汇,尽管当提示特别指出这一问题时,这种行为有所改善。
事实准确性问题:尽管ChatGPT在转录论文内容方面表现尚可,特别是在那些缺乏细微差别的论文中,但在"翻译"研究发现、深入探讨方法论、局限性或宏观影响方面明显不足。
AI在科学传播中的具体局限性
结构模仿与内容实质的分离
研究结果表明,ChatGPT能够"勉强模仿"SciPak风格简报的结构,包括格式和基本组织方式。然而,这种结构上的模仿掩盖了内容实质上的不足。AI生成的文本往往在形式上符合科学新闻的规范,但在内容深度和准确性上存在严重缺陷。
多重结果处理的困境
当面对提供多个不同结果的论文时,ChatGPT的表现尤为不佳。同样,当被要求将两篇相关论文合并为一个简报时,AI也难以有效整合信息并保持准确性。这种局限性在科学报道中尤为致命,因为科学研究往往包含复杂且有时相互矛盾的结果。
事实核查的额外负担
最令人担忧的发现是,即使将ChatGPT摘要作为人类编辑的"起点",也需要"同样甚至更多"的工作量,因为需要进行"广泛的事实核查"。这意味着,使用AI作为辅助工具实际上可能比从头撰写摘要更加耗时费力。
科学新闻的特殊挑战
科学新闻与其他类型新闻有着本质区别,这种区别正是当前AI技术难以克服的障碍:
精确性的要求:科学报道要求极高的精确性,任何细微的误解或表述不当都可能导致读者对研究产生错误理解。
专业知识的必要性:理解科学研究的背景、意义和局限性需要深厚的学科知识,这种知识AI尚未完全掌握。
复杂性的平衡:科学报道需要在保持科学准确性的同时,使内容对非专业读者可理解,这种平衡需要人类判断力。
语境的重要性:科学发现很少存在于真空中,理解其与现有知识体系的关系需要广泛的科学背景知识。
对科学记者工作的启示
这项研究对科学记者的工作方式提出了重要启示:
AI作为辅助工具而非替代品:当前AI技术更适合作为辅助工具,而非完全替代人类科学记者的工作。
人类判断的不可替代性:在科学传播中,人类的专业判断、事实核查和背景理解能力仍然不可替代。
持续学习的重要性:随着AI技术的发展,科学记者需要不断学习如何有效利用这些工具,同时保持自身专业优势。
新闻机构的策略调整:新闻机构需要重新考虑将AI整合进科学新闻生产流程的策略,确保质量和准确性不受影响。
行业更广泛的AI准确性挑战
AAAS的研究结果与更广泛的AI准确性挑战相呼应。先前的研究表明,AI搜索引擎在引用错误新闻来源方面的比例高达60%。在科学传播领域,这种错误率是不可接受的,因为科学报道的准确性和清晰沟通至关重要。
科学新闻写作面临的AI挑战不仅是技术问题,也是关乎公众科学素养的重要议题。
未来展望与技术发展
尽管研究结果令人担忧,但研究团队也指出,如果ChatGPT"经历重大更新",可能值得重新进行这项实验。值得注意的是,GPT-5已于2025年8月向公众发布。未来版本的AI模型可能会解决当前研究中发现的一些关键问题。
然而,即使技术有所改进,科学传播的本质挑战仍然存在:如何在保持科学严谨性的同时,使复杂信息对普通读者可及。这一挑战可能需要人类与AI的协作,而非简单的替代关系。
结论
AAAS科学记者最终得出结论,ChatGPT"不符合SciPak新闻简报包的风格和标准"。这项研究不仅对科学新闻行业具有重要启示,也对更广泛的AI内容创作领域提出了警示:在追求效率和规模的同时,不能牺牲准确性和专业性。
随着AI技术在内容创作领域的不断渗透,科学记者需要重新思考自己的角色和价值。未来的科学新闻生产可能是人类专业判断与AI效率优势的结合,而非简单的替代关系。这种平衡的把握,将决定科学传播的质量和效果,进而影响公众对科学理解和信任的程度。
科学新闻写作的未来可能在于人类与AI的协作,而非简单的替代关系。