在科技变革的浪潮中,人工智能(AI)正以其前所未有的力量推动着科学发现、加速人类进步并深刻地改变着我们的生活。这场AI变革的影响力,超越了移动技术和互联网的兴起,预示着一个充满机遇与挑战的新时代的到来。AI不仅具备为全球各地的人们创造机会的潜力,更将激发新一轮的创新和经济增长,以前所未有的规模推动知识、学习、创造力和生产力的发展。
作为一家“AI为先”的企业,谷歌已经走过了近八年的探索之路,并在不断加速前进。如今,数百万用户通过谷歌的产品体验着生成式AI带来的变革,完成着一年前难以想象的任务。开发者们正在利用谷歌的模型和基础设施构建新颖的生成式AI应用,而世界各地的初创公司和企业也借助谷歌的AI工具不断发展壮大。
然而,这仅仅是开始。谷歌正以一种大胆而负责任的方式推进AI的发展,这意味着在研究中保持雄心勃勃,追求为人类和社会带来福祉,同时建立安全保障措施,并与政府和专家合作,应对AI能力增强所带来的风险。谷歌还持续投资于卓越的工具、基础模型和基础设施,在AI原则的指导下,将它们融入到产品和其他领域。
如今,谷歌正携手Gemini迈入新的征程。Gemini是谷歌迄今为止最强大、最通用的模型,在众多领先的基准测试中展现出卓越的性能。Gemini 1.0针对不同尺寸进行了优化,包括Ultra、Pro和Nano三个版本。这些模型标志着Gemini时代的开端,也是谷歌DeepMind成立之初愿景的首次实现。这一新时代的模型,代表着谷歌在科学和工程领域所取得的巨大成就,也预示着Gemini将为全球带来无限机遇。
Gemini:AI的新篇章
在AI研究领域,谷歌DeepMind的团队始终致力于从人类理解世界和与之互动的方式中汲取灵感,构建新一代AI模型。这些模型将不再仅仅是智能软件,更将成为人们的专业助手,提供更实用、更直观的帮助。Gemini的推出,正是朝着这一愿景迈出的重要一步。
Gemini是谷歌各团队广泛合作的结晶,它从一开始就被设计为多模态模型,能够归纳、理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。同时,Gemini也是谷歌迄今为止最灵活的模型,能够在各种设备上高效运行,从数据中心到移动设备,为开发者和企业客户构建和扩展AI应用带来便利。
第一代Gemini 1.0经过优化,提供三种不同的尺寸:Gemini Ultra,规模最大、功能最强大,适用于高度复杂的任务;Gemini Pro,适用于各种任务;Gemini Nano,在端侧设备上运行,效率最高。
卓越的性能表现
经过严格的测试和评估,Gemini模型在各种任务中展现出卓越的性能。在大型语言模型(LLM)研究和开发中广泛使用的32项学术基准中,Gemini Ultra在自然图像、音频和视频理解以及数学推理等方面的表现,有30项都超过了当前最先进的水平。
Gemini Ultra在MMLU(大规模多任务语言理解)测试中取得了90.0%的得分率,成为首个超越人类专家的模型。MMLU涵盖了数学、物理、历史、法律、医学和伦理等57个科目,旨在测试世界知识和解决问题的能力。
针对MMLU,谷歌还开发了一种新的基准测试方法,使Gemini能够利用其推理能力在回答困难问题之前进行更仔细的思考,从而显著提升了解题效果。
Gemini Ultra在新的MMMU基准测试中也取得了59.4%的优异成绩。MMMU基准测试由跨越不同领域、需要仔细推理的多模态任务组成。
在图像基准测试中,Gemini Ultra在不使用对象字符识别(OCR)系统提取图像中的文本进行下一步处理的情况下,表现优于以往的最佳模型。这些基准测试凸显了Gemini的原生多模态性,并展示了其具有更复杂推理能力的潜力。
新一代AI能力
传统的多模态模型通常分别训练不同模态的组件,然后将它们拼接在一起,以模拟某些功能。虽然这些模型在描述图像等特定任务上表现良好,但在概念性更强、更复杂的推理方面却显得力不从心。而Gemini被设计为原生多模态,从一开始就在不同模态上进行预训练,并通过额外的多模态数据进行微调,从而在初始阶段就能流畅地理解和推理各种输入内容,其能力在各个领域都达到了先进水平。
复杂的推理能力
Gemini 1.0具备复杂的多模态推理能力,能够理解复杂的书面和视觉信息,从而在海量数据中发掘难以辨别的知识内容。它能够通过阅读、过滤和理解信息,从数十万份文件中提取见解,从而加速科学、金融等多个领域的突破。
理解文本、图像、音频及更多
Gemini 1.0经过训练,可以同时识别并理解文本、图像和音频等信息,从而更好地理解具有细微差别的信息,并回答与复杂主题相关的问题。这使得它尤其擅长解释数学和物理等复杂科目中的推理。
高级编码能力
第一代Gemini可以理解、解释和生成世界上流行的编程语言(如Python、Java、C++和Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理,成为世界领先的编码基础模型之一。Gemini Ultra在多个编码基准测试中表现出色,包括HumanEval和Natural2Code。
谷歌还利用Gemini创建了更先进的代码生成系统AlphaCode 2,该系统擅长解决那些不仅需要编码能力,还需要复杂数学和理论计算机科学知识的竞赛性编程问题。在与最初的AlphaCode在同一平台上进行评估时,AlphaCode 2解决的问题数量几乎是AlphaCode的两倍,预计其性能超过85%的参赛者,比AlphaCode高出近50%。
更可靠、可扩展和高效
谷歌使用由其设计的TPUs v4和v5e,在通过AI优化过的基础设施上对Gemini 1.0进行了大规模训练,并将其设计为可靠、可扩展且推理高效的模型。在TPUs上,Gemini的运行速度明显快于早期规模更小、性能更弱的模型。这些定制设计的AI加速器一直是谷歌服务(如Search、YouTube、Gmail、Google Maps、Google Play和Android)的核心,也使得世界各地的公司能够经济高效地训练大规模的AI模型。
谷歌还发布了功能强大、效率最高且可扩展性强的TPU系统Cloud TPU v5p,旨在为训练前沿AI模型提供支持。新一代TPU将加速Gemini的开发,帮助开发者和企业客户更快地训练大规模生成式AI模型,从而更快地推出新产品和新功能。
责任与安全至上
谷歌致力于以大胆而负责任的方式推进AI的发展。在Google AI原则和所有产品的安全政策的基础上,谷歌正在增加新的保护措施,以满足Gemini的多模态能力。在开发的每一个阶段,谷歌都会考虑潜在的风险,并努力进行测试和降低这些风险。
Gemini拥有迄今为止谷歌所有AI模型中最全面的安全评估,包括偏见和毒性评估。谷歌对网络攻击、说服力和自主性等潜在风险领域进行了创新性的研究,并应用了Google Research一流的对抗性测试技术,以在部署Gemini之前检测关键的安全问题。
为了找出内部评估方法中存在的盲点,谷歌正与多个外部专家和合作伙伴合作,通过涵盖多个问题的压力测试来对模型进行测试。
为了在Gemini的训练阶段诊断内容安全问题,并确保其输出符合政策,谷歌使用了一些基准测试,例如真实毒性提示(Real Toxicity Prompts)。此外,为了减少伤害,谷歌构建了专门的安全分类器来识别、标记和筛选涉及暴力或负面刻板印象等方面的内容。
责任和安全始终是谷歌开发和部署模型的核心。这是一个需要多方协作的长期承诺,因此谷歌正在通过MLCommons、Frontier Model Forum及其AI Safety Fund以及安全人工智能框架(SAIF)等组织与业界和更广泛的生态系统合作,设定最佳实践和安全标准。在开发Gemini的过程中,谷歌将继续与世界各地的研究人员、政府和社会团体合作。
Gemini的全球普及
Gemini 1.0现已在多种产品和平台上推出:
- Google产品中的Gemini Pro:Bard将使用Gemini Pro的微调版本来进行更高级的推理、规划和理解等。它将在170多个国家和地区提供英语服务,并计划在未来几个月内扩展不同的模态,并支持新的语言和地区。
- Pixel上的Gemini:Pixel 8 Pro是首款搭载Gemini Nano的智能手机,它可以支持录音应用中的“总结”等新功能,并在Gboard中推出“智能回复”功能。
- 未来几个月:Gemini将应用于更多的产品和服务,如Search、Ads、Chrome和Duet AI。
- Search:谷歌已经开始在Search中试验Gemini,它能够为用户提供更快的搜索生成体验(SGE),用户在美国的英语搜索延迟降低了40%,同时在质量方面也有所提高。
- 用Gemini打造产品:从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API获取Gemini Pro。Android开发者还可以通过AICore使用端侧任务高效的模型Gemini Nano。
- 敬请期待Gemini Ultra:谷歌目前正在完成大规模的信任和安全检查,包括由可信赖的外部团队进行红队测试,并在其被广泛使用前通过微调和人类反馈强化学习(RLHF)进一步完善模型。
在模型的完善过程中,谷歌将向部分客户、开发者、合作伙伴以及安全和责任专家提供Gemini Ultra,以供其进行早期试验和提供反馈。随后,在明年初,谷歌将向开发者和企业客户提供该模型。
Gemini时代:推动创新未来
Gemini的发布是AI发展过程中的一个重要里程碑,也标志着谷歌迈进新纪元的开始。谷歌将继续快速创新,并以负责任的方式不断提升模型的能力。谷歌正在努力进一步扩展其未来版本的各种功能,包括在规划和记忆方面取得进展,以及通过增加上下文窗口来处理更多信息并提供更好的响应。谷歌对负责任的AI为世界带来的无限可能感到兴奋,相信其创新未来将提高创造力、扩展知识、推动科学发展,并将改变全球数十亿人的生活和工作方式。