在人工智能领域,技术革新的浪潮从未停歇。当OpenAI的Sora模型凭借其卓越的文本生成视频能力吸引了全球目光时,谷歌悄然发布了其新一代人工智能模型——Gemini 1.5。尽管Gemini 1.5的光芒在Sora的耀眼之下显得有些黯淡,但它在跨模态超长文本理解能力上的显著突破,同样值得我们深入探讨。
谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)与首席科学家杰夫·迪恩(Jeff Dean)等高管在社交媒体上同步宣布了这一重大更新。Gemini 1.5最引人注目的特性在于其处理大量信息的能力,它能够稳定处理高达100万个tokens的信息量。这相当于1小时的视频、11小时的音频、超过3万行代码或70万个单词。
在Gemini 1.5发布之前,公开可用的大语言模型中,最大的上下文窗口是Claude 2.1的20万个tokens,而GPT-4为12.8万个tokens,Gemini 1.0 Pro为3.2万个tokens。Gemini 1.5的出现,将上下文窗口长度提升了一个数量级。
谷歌甚至透露,在内部研究中,他们已成功测试了高达1000万tokens的处理能力,这相当于一次性将整个《指环王》三部曲的内容输入模型。桑达尔·皮查伊认为,更大的查询窗口对企业具有重要价值,例如,电影制作人可以上传整部电影,并询问Gemini对影片的评价,公司也可以利用Gemini来审查大量的财务记录。
Gemini 1.5采用了混合专家(MoE)架构,这一架构通过将大型神经网络划分为较小的专家模块,并在执行任务时根据信息类型选择性地激活最相关的专家路径,从而显著提升了模型的效率和准确性。MoE架构不仅更适合处理大规模数据集的复杂任务,还具有更强的可扩展性和灵活性。谷歌一直是MoE技术的早期采用者和先驱,并提出了多种相关研究。
根据谷歌发布的数据,Gemini 1.5 Pro在使用了更少计算资源的同时,在数学、科学、推理、多语言和视频等任务上的执行水平已接近1.0 Ultra。在官方演示和技术论文中,谷歌展示了该模型在长文档推理和多模态分析方面的强大性能。
Gemini 1.5 Pro可以无缝分析、分类和总结给定的长篇复杂文档。例如,上传阿波罗11号登月任务的402页pdf记录(32.6万tokens),要求其列出三个有意思的瞬间,并引用原始对话细节,模型在30秒内给出了回应,并准确地引用了迈克尔·柯林斯的话。
此外,如果给出靴子的图片,并询问模型“这是什么时刻”,模型可以正确地将其识别为尼尔·阿姆斯特朗在月球上的第一步。
对于维克多·雨果的五卷本小说《悲惨世界》(1382页,73.2万tokens),粗略地勾勒一个场景,并提问“看看这幅画中的事件是在哪一页上?”,模型能够准确给出页码,并标识出关键情节。
Gemini 1.5 Pro在超长视频理解方面同样表现出色,能够快速准确地分析各种事件和情节点。以巴斯特·基顿自导的《福尔摩斯二世》为例,这是一部时长为44分钟的无声电影(相当于69万tokens),要求其一句话总结电影情节,然后继续询问一个“纸张从口袋取出的关键信息和时间”,Gemini 1.5 Pro用时57秒,指出了相关信息,并给出了详细信息。
除了纯文字prompt,还可以直接给模型一张抽象的“场景图”,询问“发生这种情况时的时间点是多少?”,模型在不到一分钟的时间内,准确给出了电影对应的时间点。
Gemini 1.5 Pro超大的上下文窗口还能够深入分析整个代码库。以Three.js为例,这是一个包含约10万行代码、示例、文档等的3D Javascript库(相当于81.6万tokens),将其全部输入给模型,并要求其“找到三个示例来学习角色动画”,模型在查看了数百个示例后,筛选出了三个关于混合骨骼动画、姿势、面部动画的示例。
接下来用文字询问模型“动画Little Tokyo的demo是由什么控制的?”,模型不仅找到了这个demo,并且解释了动画嵌入在gLTF模型中,甚至还能实现“定制代码”,例如让模型给一些代码添加一个滑块来控制动画的速度,同时使用其它演示所具有的那种GUI,Gemini 1.5也能快速给出可以成功运行的代码。
除此之外,Gemini 1.5还可以做到“代码定位”,仅靠一张demo的图片,Gemini 1.5就能在代码库中从数百个demo中找到该图对应动画的代码,甚至还能修改代码,让地形变得平坦,并解释其中的工作原理,就连对文本几何体的修改也不在话下。
Gemini 1.5 Pro的另一项技能是“上下文学习(in-context learning)”,意味着它能从一个长提示中给出的信息里学习新技能,而无需额外的微调步骤。为此,谷歌使用“对一本书进行机器翻译 (MTOB)”的任务进行测试,并且选用卡拉芒(Kalamang)语,由于这门语言几乎没有任何网络信息,模型只能依赖于给定的上下文数据,而非训练权重中储存的知识来进行翻译。在测试中,工作人员向Gemini 1.5 Pro提供了500页参考语法、2000条双语词条和400个额外的平行句子(总计约25万tokens信息)作为输入上下文,要求从中学习并完成卡拉芒语和英语的互译。从测试结果可见,Gemini 1.5 Pro对整本书的翻译得分接近人类学习者。相比之下,GPT-4 Turbo和Claude 2.1一次只能看完半本书,要想获得这个技能就必须要微调或者使用外部工具了。对于一门在模型训练过程中几乎完全没接触过的语言来说,这个成就就显得尤为突出了,意味着不仅支持濒危语言的保护和复兴,也为其它低资源教育领域开辟了新的可能性。
在模型评估方面,通过对文本、代码、图像、音频和视频的综合评估面板测试,在用于开发大语言模型的87%的基准测试中,Gemini 1.5 Pro都优于1.0 Pro。在相同的基准测试中,Gemini 1.5 Pro与1.0 Ultra相比,性能水平大致相似。即使上下文窗口增加,Gemini 1.5 Pro也能保持高水平的性能。在NIAH评估中,评估人员将一小段包含特定事实或陈述的文本故意放置在长文本块中,而Gemini 1.5 Pro在长达100万个tokens的数据块中发现嵌入文本的概率为99%。
谷歌将通过AI Studio和Vertex AI向开发者和企业客户提供 Gemini 1.5 Pro的有限预览权限,最终在完成所有安全部署和测试后取代Gemini 1.0。免费使用的Gemini 1.5 Pro标准版将采用12.8万个tokens上下文窗口,普通用户需要额外支付费用获得100万tokens使用权。目前已经在业务中采用Gemini大模型的客户包括三星手机、Jasper和Quora等。
尽管Gemini 1.5的发布时间略显“不凑巧”,但它对超长文本强大的分析推理能力是其它大模型难以企及的。英伟达高级科学家Jim Fan表示,尽管Gemini-1.5 Pro被抢走了风头,但这仍然是大语言模型能力的巨大跃升。测试中达到的1000万tokens上下文、擅长检索、在零样本情况下对极长指令进行泛化、多模态工作能力都是惊人的。重要的是模型实际上如何使用上下文来解决现实世界的问题。他对1.5 Pro不通过微调而自主实现对Kalamang语的学习和应用表示赞赏,认为这展现了超越现有技术水平的复杂技能。
从Google Gemini 1.5和OpenAI Sora的发布可以看出,大型科技公司之间在生成式AI底层技术上的竞争正在快速升温。这场竞争不仅以前所未有的速度不断突破技术壁垒,而且在多模态的前提下已经形成了全方位的竞争,展现出一种奇幻的景象。