Gemini：谷歌发布最强AI模型，开启多模态AI新纪元

在科技变革的浪潮中，人工智能（AI）正以其前所未有的力量推动着科学发现、加速人类进步并深刻地改变着我们的生活。这场AI变革的影响力，超越了移动技术和互联网的兴起，预示着一个充满机遇与挑战的新时代的到来。AI不仅具备为全球各地的人们创造机会的潜力，更将激发新一轮的创新和经济增长，以前所未有的规模推动知识、学习、创造力和生产力的发展。

作为一家“AI为先”的企业，谷歌已经走过了近八年的探索之路，并在不断加速前进。如今，数百万用户通过谷歌的产品体验着生成式AI带来的变革，完成着一年前难以想象的任务。开发者们正在利用谷歌的模型和基础设施构建新颖的生成式AI应用，而世界各地的初创公司和企业也借助谷歌的AI工具不断发展壮大。

然而，这仅仅是开始。谷歌正以一种大胆而负责任的方式推进AI的发展，这意味着在研究中保持雄心勃勃，追求为人类和社会带来福祉，同时建立安全保障措施，并与政府和专家合作，应对AI能力增强所带来的风险。谷歌还持续投资于卓越的工具、基础模型和基础设施，在AI原则的指导下，将它们融入到产品和其他领域。

如今，谷歌正携手Gemini迈入新的征程。Gemini是谷歌迄今为止最强大、最通用的模型，在众多领先的基准测试中展现出卓越的性能。Gemini 1.0针对不同尺寸进行了优化，包括Ultra、Pro和Nano三个版本。这些模型标志着Gemini时代的开端，也是谷歌DeepMind成立之初愿景的首次实现。这一新时代的模型，代表着谷歌在科学和工程领域所取得的巨大成就，也预示着Gemini将为全球带来无限机遇。

Gemini：AI的新篇章

在AI研究领域，谷歌DeepMind的团队始终致力于从人类理解世界和与之互动的方式中汲取灵感，构建新一代AI模型。这些模型将不再仅仅是智能软件，更将成为人们的专业助手，提供更实用、更直观的帮助。Gemini的推出，正是朝着这一愿景迈出的重要一步。

Gemini是谷歌各团队广泛合作的结晶，它从一开始就被设计为多模态模型，能够归纳、理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。同时，Gemini也是谷歌迄今为止最灵活的模型，能够在各种设备上高效运行，从数据中心到移动设备，为开发者和企业客户构建和扩展AI应用带来便利。

第一代Gemini 1.0经过优化，提供三种不同的尺寸：Gemini Ultra，规模最大、功能最强大，适用于高度复杂的任务；Gemini Pro，适用于各种任务；Gemini Nano，在端侧设备上运行，效率最高。

卓越的性能表现

经过严格的测试和评估，Gemini模型在各种任务中展现出卓越的性能。在大型语言模型（LLM）研究和开发中广泛使用的32项学术基准中，Gemini Ultra在自然图像、音频和视频理解以及数学推理等方面的表现，有30项都超过了当前最先进的水平。

Gemini Ultra在MMLU（大规模多任务语言理解）测试中取得了90.0%的得分率，成为首个超越人类专家的模型。MMLU涵盖了数学、物理、历史、法律、医学和伦理等57个科目，旨在测试世界知识和解决问题的能力。

针对MMLU，谷歌还开发了一种新的基准测试方法，使Gemini能够利用其推理能力在回答困难问题之前进行更仔细的思考，从而显著提升了解题效果。

Gemini Ultra在新的MMMU基准测试中也取得了59.4%的优异成绩。MMMU基准测试由跨越不同领域、需要仔细推理的多模态任务组成。

在图像基准测试中，Gemini Ultra在不使用对象字符识别（OCR）系统提取图像中的文本进行下一步处理的情况下，表现优于以往的最佳模型。这些基准测试凸显了Gemini的原生多模态性，并展示了其具有更复杂推理能力的潜力。

新一代AI能力

传统的多模态模型通常分别训练不同模态的组件，然后将它们拼接在一起，以模拟某些功能。虽然这些模型在描述图像等特定任务上表现良好，但在概念性更强、更复杂的推理方面却显得力不从心。而Gemini被设计为原生多模态，从一开始就在不同模态上进行预训练，并通过额外的多模态数据进行微调，从而在初始阶段就能流畅地理解和推理各种输入内容，其能力在各个领域都达到了先进水平。

复杂的推理能力

Gemini 1.0具备复杂的多模态推理能力，能够理解复杂的书面和视觉信息，从而在海量数据中发掘难以辨别的知识内容。它能够通过阅读、过滤和理解信息，从数十万份文件中提取见解，从而加速科学、金融等多个领域的突破。

理解文本、图像、音频及更多

Gemini 1.0经过训练，可以同时识别并理解文本、图像和音频等信息，从而更好地理解具有细微差别的信息，并回答与复杂主题相关的问题。这使得它尤其擅长解释数学和物理等复杂科目中的推理。

高级编码能力

第一代Gemini可以理解、解释和生成世界上流行的编程语言（如Python、Java、C++和Go）的高质量代码。它能够跨语言工作并对复杂信息进行推理，成为世界领先的编码基础模型之一。Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval和Natural2Code。

谷歌还利用Gemini创建了更先进的代码生成系统AlphaCode 2，该系统擅长解决那些不仅需要编码能力，还需要复杂数学和理论计算机科学知识的竞赛性编程问题。在与最初的AlphaCode在同一平台上进行评估时，AlphaCode 2解决的问题数量几乎是AlphaCode的两倍，预计其性能超过85%的参赛者，比AlphaCode高出近50%。

更可靠、可扩展和高效

谷歌使用由其设计的TPUs v4和v5e，在通过AI优化过的基础设施上对Gemini 1.0进行了大规模训练，并将其设计为可靠、可扩展且推理高效的模型。在TPUs上，Gemini的运行速度明显快于早期规模更小、性能更弱的模型。这些定制设计的AI加速器一直是谷歌服务（如Search、YouTube、Gmail、Google Maps、Google Play和Android）的核心，也使得世界各地的公司能够经济高效地训练大规模的AI模型。

谷歌还发布了功能强大、效率最高且可扩展性强的TPU系统Cloud TPU v5p，旨在为训练前沿AI模型提供支持。新一代TPU将加速Gemini的开发，帮助开发者和企业客户更快地训练大规模生成式AI模型，从而更快地推出新产品和新功能。

责任与安全至上

谷歌致力于以大胆而负责任的方式推进AI的发展。在Google AI原则和所有产品的安全政策的基础上，谷歌正在增加新的保护措施，以满足Gemini的多模态能力。在开发的每一个阶段，谷歌都会考虑潜在的风险，并努力进行测试和降低这些风险。

Gemini拥有迄今为止谷歌所有AI模型中最全面的安全评估，包括偏见和毒性评估。谷歌对网络攻击、说服力和自主性等潜在风险领域进行了创新性的研究，并应用了Google Research一流的对抗性测试技术，以在部署Gemini之前检测关键的安全问题。

为了找出内部评估方法中存在的盲点，谷歌正与多个外部专家和合作伙伴合作，通过涵盖多个问题的压力测试来对模型进行测试。

为了在Gemini的训练阶段诊断内容安全问题，并确保其输出符合政策，谷歌使用了一些基准测试，例如真实毒性提示（Real Toxicity Prompts）。此外，为了减少伤害，谷歌构建了专门的安全分类器来识别、标记和筛选涉及暴力或负面刻板印象等方面的内容。

责任和安全始终是谷歌开发和部署模型的核心。这是一个需要多方协作的长期承诺，因此谷歌正在通过MLCommons、Frontier Model Forum及其AI Safety Fund以及安全人工智能框架（SAIF）等组织与业界和更广泛的生态系统合作，设定最佳实践和安全标准。在开发Gemini的过程中，谷歌将继续与世界各地的研究人员、政府和社会团体合作。

Gemini的全球普及

Gemini 1.0现已在多种产品和平台上推出：

Google产品中的Gemini Pro：Bard将使用Gemini Pro的微调版本来进行更高级的推理、规划和理解等。它将在170多个国家和地区提供英语服务，并计划在未来几个月内扩展不同的模态，并支持新的语言和地区。
Pixel上的Gemini：Pixel 8 Pro是首款搭载Gemini Nano的智能手机，它可以支持录音应用中的“总结”等新功能，并在Gboard中推出“智能回复”功能。
未来几个月：Gemini将应用于更多的产品和服务，如Search、Ads、Chrome和Duet AI。
Search：谷歌已经开始在Search中试验Gemini，它能够为用户提供更快的搜索生成体验（SGE），用户在美国的英语搜索延迟降低了40%，同时在质量方面也有所提高。
用Gemini打造产品：从12月13日开始，开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API获取Gemini Pro。Android开发者还可以通过AICore使用端侧任务高效的模型Gemini Nano。
敬请期待Gemini Ultra：谷歌目前正在完成大规模的信任和安全检查，包括由可信赖的外部团队进行红队测试，并在其被广泛使用前通过微调和人类反馈强化学习（RLHF）进一步完善模型。

在模型的完善过程中，谷歌将向部分客户、开发者、合作伙伴以及安全和责任专家提供Gemini Ultra，以供其进行早期试验和提供反馈。随后，在明年初，谷歌将向开发者和企业客户提供该模型。

Gemini时代：推动创新未来

Gemini的发布是AI发展过程中的一个重要里程碑，也标志着谷歌迈进新纪元的开始。谷歌将继续快速创新，并以负责任的方式不断提升模型的能力。谷歌正在努力进一步扩展其未来版本的各种功能，包括在规划和记忆方面取得进展，以及通过增加上下文窗口来处理更多信息并提供更好的响应。谷歌对负责任的AI为世界带来的无限可能感到兴奋，相信其创新未来将提高创造力、扩展知识、推动科学发展，并将改变全球数十亿人的生活和工作方式。