在人工智能领域,一篇研究论文的署名作者数量往往能反映出该项目的复杂程度和协作规模。最近,一篇关于谷歌Gemini AI助手技术核心的论文,以其高达3295名的作者数量,引起了业界的广泛关注。这一数字不仅刷新了人们对AI研究团队规模的认知,也引发了关于现代AI开发模式的深刻思考。
机器学习研究员David Ha在社交媒体上揭示,这篇名为“Gemini 2.5:通过高级推理、多模态、长上下文和下一代Agentic能力推动前沿”的论文,其署名作者列表中隐藏着一个有趣的彩蛋。通过观察前43位作者姓名的首字母,可以发现一条秘密信息:“GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH.”(Gemini模型可以思考并快速回复你)。
这个彩蛋巧妙地呼应了Gemini AI模型的“模拟推理”能力,即在生成最终回复前,模型会先“思考”并输出一段“思考过程”。然而,除了这个引人入胜的彩蛋外,庞大的作者数量本身也引发了人们的好奇:3295名作者是否史无前例?为何需要如此庞大的团队来完成这项研究?
事实上,虽然3295名作者代表了谷歌内部一项巨大的协作努力,但它并非学术著作作者数量的最高纪录。根据吉尼斯世界纪录,2021年由COVIDSurg和GlobalSurg Collaboratives发表的一篇论文,拥有来自116个国家的15025名作者。在物理学领域,2015年CERN的大型强子对撞机团队发表的一篇论文,也有5154名作者,其中24页专门用于列出作者姓名和机构。
CERN的论文提供了当时对希格斯玻色子质量的最精确估计,代表了两个大型探测器团队之间的合作。类似的大型作者名单在粒子物理学中已经变得很普遍,因为实验需要数千名科学家、工程师和支持人员的贡献。
在谷歌DeepMind的Gemini开发案例中,构建一个AI模型家族需要跨越多个学科的专业知识。这不仅包括机器学习研究人员,还包括构建基础设施的软件工程师、为特定处理器优化的硬件专家、评估安全影响的伦理学家、协调工作的产品经理,以及确保模型在不同应用和语言中工作的领域专家。
AI模型开发的复杂性在短时间内迅速增加。谷歌2023年的首个Gemini论文仅有“区区”1350名作者。这意味着在不到两年的时间里,作者人数增加了144%。
那么,Gemini 2.5论文是否表明,现代AI研究已经成为一项大型团队运动?在这种团队运动中,传统的作者概念难以捕捉推动技术前沿的协作现实?或者,谷歌仅仅是在署名权上异常慷慨?
为了进行比较,AI论文中天文数字般的作者数量趋势不一定超出谷歌的范围。在竞争对手OpenAI,公司的o1系统卡列出了260位作者,而GPT-4o系统卡列出了417位作者。毫无疑问,数量众多,但没有达到数千。这种差异可能归因于OpenAI是一家规模较小的公司,但也归因于关于谁的名字出现在名单上的管理决策。显然,谷歌已经采取了非常包容的署名标准。
一篇论文有如此多的作者,人们可能会怀疑将他们全部列出会不会混淆学术过程的某些部分。例如,论文是否应该包括所有相关人员,即使是打扫服务器房间地板的人?如此庞大的作者名单可能会模糊核心贡献者和边缘参与者之间的区别,从而难以评估个人贡献。此外,由于3295位作者将来可能会在他们的工作中引用这篇论文,因此存在以可能无法准确反映论文科学影响的方式夸大引用次数的风险。
正如一位科学博主在评论大型物理学合作时指出的那样,“论文根本没有5000名‘作者’。事实上,我敢打赌,在创纪录的论文上列出的‘作者’中,没有几个人甚至读过这篇文章,更不用说写过其中的任何内容了。”
我们并不是说所有这3295人都应该获得荣誉,但这是一个庞大而笨拙的数字。与此同时,AI项目的复杂性继续扩大。事实上,如果我们继续看到作者人数每两年增加144%,到2040年,谷歌的AI论文可能会有超过265万作者。我们将需要AI模型来阅读作者名单。