Gemini来袭：谷歌AI新模型能否重塑生成式AI格局？

引言

北京时间12月6日晚，谷歌正式发布了其最新AI模型——Gemini 1.0，再次点燃了AI领域的竞争。Gemini 1.0以其卓越的多模态任务处理能力，声称在某些方面已经超越了人类专家，这无疑为生成式AI领域带来了新的活力。

Gemini的发布前期准备

在Gemini正式亮相之前，业界已经对其有所耳闻。早在今年五月的Google I/O大会上，谷歌就已透露了Gemini的存在。与先前外界的猜测不同，谷歌表示Gemini的发布并非因内部原因而延期，而是源于其长达十余年的AI模型研发积累。自2012年起，谷歌便开始了AI模型的研发，并在2023年相继发布PaLM2与Bard之后，才开始为Gemini的正式发布做准备。

值得一提的是，DeepMind在Gemini的研发过程中扮演了关键角色。作为AI领域的翘楚，DeepMind早在OpenAI崭露头角之前，便凭借其AI围棋程序AlphaGo赢得了全球瞩目。此次，DeepMind以“双子座”为名，发布新一代AI大模型，无疑有重夺AI模型领域主导地位的意图。“双子座”这一名称本身就寓意着“快速思维”的能力，同时也象征着包罗万象、善于沟通的特性。

Gemini的三大关键特性

Gemini作为谷歌开发的AI模型，具备以下三大关键特性：

1. 多模态能力

Gemini被誉为首个原生支持多模态能力的AI模型。与传统的多模态模型不同，Gemini在多种模态上进行预训练，并利用额外的多模态数据进行微调，从而在处理复杂问题时表现更加出色。在行业标准MMLU基准测试中，Gemini Ultra取得了90%的成绩，超越了人类专家和GPT-4的同类测试结果，并在九项独立基准测试中击败了竞争对手。这种突破性的训练架构使得Gemini能够快速理解和推理人类的各种内容，为解决复杂问题提供了更高效的解决方案。

Gemini展现了其卓越的多模态理解能力，例如，能够根据简笔画进行实时解读，根据视频中的颜色比例推荐编织玩具，以及进行猜硬币游戏。它与其他生成式AI模型最大的区别在于能够同时处理多种形态的信息输入。谷歌特别强调了Gemini在数学领域的复杂理解能力，并展示了通过视频输入数学题，Gemini辅助解决问题的场景，彰显了其在处理复杂逻辑数学问题方面的优势。

2. 可拓展性

2023年下半年，大模型并行发展成为行业主流趋势，特别是端侧大模型在生成式AI应用中备受关注。包括vivo、小米、OPPO在内的多家手机品牌纷纷推出了端侧大模型与云端大模型相结合的应用。在Gemini 1.0中，谷歌发布了三个版本：Gemini Ultra（最聪慧，需要更大的计算量）、Pro（最均衡，适用于多场景）和Nano（体积最小最高效，主要部署在Android手机等设备上的端侧大模型）。

Gemini Nano具备完全在端侧离线运行的能力，并已适配Pixel系统自带的录音App，可生成AI摘要，甚至在无网络连接时也能正常运行。Gemini Nano的能力已经整合到Android系统中，第三方应用开发者也可以通过应用适配来调用其能力。谷歌计划将Gemini适配到其他Android智能手机，但目前仅有Pixel 8 Pro实现了适配。虽然谷歌未正面回应Gemini是否超越GPT-4，但Gemini Ultra在MMLU中获得的评分高于GPT-4，是目前唯一超越人类专家测试结果的AI模型。

3. 新硬件与新架构

谷歌的TPU（张量处理单元）是专为神经网络机器学习开发的专用硬件。自2015年发布TPU v1以来，TPU已经迭代了五个大版本。

Gemini 1.0基于谷歌数据中心的TPU v4和TPU v5e大规模阵列进行训练。TPU阵列不仅用于训练Gemini，还广泛应用于Gmail、YouTube、Google Play等谷歌生态应用中，并从2018年开始开放给第三方客户使用。

Gemini在TPU上的运行速度明显优于早期的小模型。同时，谷歌还展示了最新的TPU v5p系列，该系列提升了可拓展性，浮点运算能力相比v4提升了两倍，训练速度也提升了2.8倍以上。

此外，谷歌还推出了代号为“AI Hypercomputer”的超级计算机架构，该架构可以与Google Cloud计算中心的硬件协同工作，支持现代AI模型开发的工作负载。

生成式人工智能领域的新格局展望

近期，OpenAI经历了一系列领导层变动，包括首席执行官的罢免与复职，这给公司带来了一定的不确定性。与此同时，谷歌发布了Gemini，并将其与OpenAI的GPT-4进行对比，显示出大型语言模型领域竞争的白热化。OpenAI也在密切关注谷歌的动向，并推出了一系列更新，包括GPT-4的升级版、赋予用户个性化GPT的功能以及计划开放GPT应用商店等。OpenAI目前的重点是开发下一代GPT-5，因为谷歌的Gemini在多个方面显示出对GPT-4的超越，这也让人们对GPT-5充满期待。

总结

谷歌Gemini的发布无疑为生成式人工智能领域注入了新的活力。凭借其强大的多模态能力、可拓展性以及先进的硬件架构，Gemini有望在多个领域取得突破性进展。然而，OpenAI的GPT-5也在紧锣密鼓地开发中，未来生成式人工智能领域的竞争格局将充满变数，值得期待。