谷歌的Gemini 1.0 Ultra发布不久,便再次推出了新一代多模态大模型——Gemini 1.5系列。DeepMind首席科学家Jeff Dean和联合创始人兼CEO Demis Hassabis宣布了这一消息。Gemini 1.5系列中最引人注目的是Gemini 1.5 Pro,它不仅是谷歌最强大的MoE(Mixture of Experts)大模型,还支持高达100万token的超长上下文。
这意味着,用户可以轻松地与包含数十万字的超长文档、包含数百个文件的数十万行代码库,甚至是一部完整的电影进行互动。为了详细介绍这款模型,谷歌发布了一份长达58页的技术报告。
可以毫不夸张地说,大型语言模型领域将迎来一个新时代!
超长上下文:100万Token的突破
在此之前,最先进的模型已经达到了20万token的上下文窗口。而现在,谷歌成功地将这个数字提升到了100万,极限情况下甚至可以达到1000万token,创下了最长上下文窗口的记录。
为了验证Gemini 1.5 Pro的性能,谷歌进行了一系列测试,包括多模态海底捞针测试。
在文本处理方面,Gemini 1.5 Pro在处理高达53万token的文本时,能够实现100%的检索完整性,处理100万token的文本时达到99.7%。即使在处理1000万token的文本时,检索准确性仍然高达99.2%。
在音频处理方面,Gemini 1.5 Pro能够从大约11小时的音频资料中,100%成功检索到各种隐藏的音频片段。
在视频处理方面,Gemini 1.5 Pro能够从大约3小时的视频内容中,100%成功检索到各种隐藏的视觉元素。
此外,谷歌还开发了一个更通用的「大海捞针」测试,模型需要在一定的文本范围内检索到100个不同的特定信息片段。Gemini 1.5 Pro在这个测试中表现出色,在较短的文本长度上超过了GPT-4-Turbo,并在整个100万token的范围内保持了相对稳定的表现。相比之下,GPT-4 Turbo的性能迅速下降,且无法处理超过128,000 token的文本。
上下文窗口的巨大提升
上下文窗口是大型语言模型发展的关键。它由许多token组成,这些token是处理单词、图像、视频、音频、代码等信息的基础。上下文窗口越大,模型在处理给定提示时能够接纳的信息就越多,从而使输出更加连贯、相关和实用。
谷歌通过一系列机器学习创新,将1.5 Pro的上下文窗口容量从Gemini 1.0的32,000 token直接提升到1,000,000 token。这意味着1.5 Pro能够一次性处理海量信息,例如1小时的视频、11小时的音频、超过30,000行的代码库或超过700,000个单词。谷歌甚至一度成功测试了高达10,000,000 token的上下文窗口。
深入理解海量信息
Gemini 1.5 Pro可以分析给定提示中的海量内容,洞察文档中的对话、事件和细节,展现出对复杂信息的深刻理解。
例如,将阿波罗11号登月任务的402页飞行记录输入模型,它能够对复杂的信息表现出深刻的理解。让它从文件中列举出3个喜剧性的时刻,模型在30秒内就生成了答案。
再来看看它的多模态功能。输入一张阿姆斯特朗登上月球的图片,询问“这是什么时刻?”,它会回答:“这是阿姆斯特朗迈上月球的一小步,也是人类的一大步。”
谷歌还新增了一个功能,允许开发者上传多个文件(例如PDF),并提出问题。更大的上下文窗口使模型能够处理更多信息,从而使输出结果更加一致、相关且实用。
跨越不同媒介
Gemini 1.5 Pro还能够在视频中展现出深度的理解和推理能力。得益于Gemini的多模态能力,上传的视频会被拆分成数千个画面(不包括音频),以便执行复杂的推理和问题解决任务。
例如,输入一部44分钟的无声电影——Buster Keaton主演的经典之作《小神探夏洛克》。模型不仅能够精准地捕捉到电影的各个情节和发展,还能洞察到极易被忽略的细微之处。
我们可以问它:“找到一张纸从主角口袋中被拿出的瞬间,然后告诉我关于这个细节的信息。”模型大约用了60秒左右就准确地找出了这个镜头是在电影的12:01,并描述出了相关细节。
输入一张粗略的涂鸦,要求模型找到电影中的对应场景,模型也在一分钟内找到了答案。
高效处理更长代码
Gemini 1.5 Pro在处理长达超过100,000行的代码时,还具备极强的问题解决能力。
面对如此庞大的代码量,它不仅能够深入分析各个示例,提出实用的修改建议,还能详细解释代码的各个部分是如何协同工作的。
开发者可以直接上传新的代码库,利用这个模型快速熟悉、理解代码结构。
MoE:高效架构的秘密
Gemini 1.5的设计基于谷歌在Transformer和混合专家(MoE)架构方面的研究。与传统的Transformer不同,MoE模型由众多小型的「专家」神经网络组成。这些模型可以根据不同的输入类型,学会仅激活最相关的专家网络路径。这种专门化使得模型效率大幅提升。
谷歌通过Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4等研究,早已成为深度学习领域中MoE技术的领导者。Gemini 1.5的架构创新带来的不仅仅是更迅速地掌握复杂任务、保持高质量输出,还在训练和部署上变得更加高效。因此,团队才能以惊人的速度,不断迭代和推出更先进的Gemini版本。
性能比肩Ultra,大幅超越1.0 Pro
在涵盖文本、代码、图像、音频和视频的综合性测试中,1.5 Pro在87%的基准测试上超越了1.0 Pro。与1.0 Ultra在相同基准测试的比较中,1.5 Pro的表现也相差无几。
Gemini 1.5 Pro在扩大上下文窗口后,依然保持了高水平的性能。在「大海捞针 (NIAH)」测试中,它能够在长达100万token的文本块中,在99%的情况下,准确找出隐藏有特定信息的文本片段。
此外,Gemini 1.5 Pro展现了卓越的「上下文学习」能力,能够仅凭长提示中提供的信息掌握新技能,无需进一步细化调整。这一能力在「从一本书学习机器翻译 (MTOB)」基准测试中得到了验证,该测试检验了模型学习从未接触过的信息的能力。
对于一本关于全球不足200人使用的Kalamang语的语法手册,模型能够学会将英语翻译成Kalamang语,学习效果与人类学习相似。谷歌的研究者成功地增强了模型处理长文本的能力,而且这种增强并没有影响到模型的其他功能。
虽然这项改进只用了Gemini 1.0 Ultra模型训练时间的一小部分,但1.5 Pro模型在31项性能测试中的17项上超过了1.0 Ultra模型。与1.0 Pro模型相比,1.5 Pro在31项测试中的27项上表现更佳。
细节表现
Gemini 1.5 Pro在分析和掌握复杂代码库方面表现出色。例如,three.js是一个包含约10万行代码、示例和文档等的3D Javascript库。借助这个代码库作为背景,系统能够帮助用户深入理解代码,并能够根据人们提出的高层次要求来修改复杂的示例。
比如:“展示一些代码,用于添加一个滑块控制动画速度。采用和其他演示相同的GUI风格。”或者精确地指出需要修改的代码部分,以改变另一个示例中生成的地形的高度。
模型能够帮我们理解代码,或定位某个特定功能的实现位置。在这个例子中,模型能够处理整个包含116个文件的JAX代码库(746k token),并协助用户找到实现自动微分反向传播的确切代码位置。显然,在深入了解一个陌生的代码库或日常工作中使用的代码库时,长上下文处理能力的价值不言而喻。许多Gemini团队成员已经发现,Gemini 1.5 Pro的长上下文处理功能对于Gemini代码库大有裨益。
同时,模型在分析长篇、复杂的文本文档方面也非常出色,例如雨果的五卷本小说《悲惨世界》(共1382页,含732,000个token)。下面这个简单的实验展示了模型的多模态能力:粗略地画出一个场景,并询问“请看这幅图画中的事件发生在书的哪一页?”模型就能给出准确的答案——1099页!
报告中一个引人注目的例子是关于Kalamang语的翻译。卡拉曼语是新几内亚西部、印度尼西亚巴布亚东部不足200人使用的语言,几乎未在互联网上留下足迹。Gemini Pro 1.5通过上下文学习掌握了Kalamang语的知识,其翻译质量可与使用相同材料学习的人相媲美。
在英语到卡拉曼语的翻译中,Gemini Pro 1.5的ChrF达到了58.3,大幅超过了以往最好的模型得分45.8 ChrF,并略高于MTOB论文报告的57.0 ChrF人类基准。这一成就无疑带来了令人激动的可能性,提升稀有语言的翻译质量。
Gemini 1.5的诞生标志着谷歌在研究和工程创新上迈出了重要一步。接下来,能与Gemini 1.5竞争的可能是GPT-5了。