Gemini:谷歌AI新星,多模态大模型引领AI新时代

2

谷歌在2023年12月6日发布了原生多模态大模型Gemini,这一举动无疑给人工智能领域带来了一场地震。Gemini以其超越GPT-4的性能,尤其是在语言理解能力方面首次超越人类,预示着AI技术发展的新篇章。Gemini的发布不仅仅是技术上的突破,更代表着人工智能向更智能、更人性化的方向迈进了一大步。

Gemini:谷歌的AI新星

谷歌DeepMind首席执行官Demis Hassabis代表Gemini团队,分享了对人工智能的深刻愿景。他提到,Gemini的诞生源于对构建新一代AI模型的长期追求,这些模型能够像人类一样理解世界并与之互动。Gemini不仅仅是一个智能软件,更像是一个智能助手,能够以更直观的方式服务于人类。

Gemini的独特之处在于其多模态特性,能够无缝理解和组合文本、代码、音频、图像和视频等多种信息类型。这种多模态能力使得Gemini在处理复杂任务时更加得心应手。此外,Gemini还具有高度的灵活性,能够在各种设备上高效运行,从数据中心到移动设备,都能够发挥其强大的计算能力。

谷歌针对不同的应用场景优化了Gemini,推出了三个版本:Gemini Ultra、Gemini Pro和Gemini Nano。Gemini Ultra是性能最强大的版本,主要面向数据中心和企业级应用;Gemini Pro则适用于广泛的任务,并已成为Bard的支柱;Gemini Nano则专注于设备端任务,能够在安卓设备上本地和离线运行。这种分层设计的策略,使得Gemini能够更好地满足不同用户的需求。

图片

SOTA性能:超越人类专家

Gemini在多个学术基准测试中表现出色,尤其是在大型语言模型(LLM)研究和开发中广泛使用的32个学术基准中,Gemini Ultra在30个方面的性能超过了当前最先进的结果。更值得一提的是,Gemini Ultra在MMLU(大规模多任务语言理解)方面的得分为90.0%,成为首个在该方面超越人类专家的模型。MMLU基准测试涵盖了数学、物理、历史、法律、医学和伦理等57门科目,旨在测试模型的世界知识和解决问题的能力。Gemini Ultra的优异表现,充分证明了其在知识掌握和问题解决方面的强大能力。

Gemini在MMLU上的成功,得益于其独特的推理能力。通过在回答难题之前进行更仔细的思考,Gemini能够显著提高其性能,超越仅仅依赖第一印象的传统方法。这种推理能力的提升,使得Gemini在处理复杂问题时更加准确和可靠。

图片

Gemini Ultra还在新的MMMU基准测试中获得了59.4%的最先进分数。MMMU基准测试由跨越不同领域的多模式任务组成,需要深思熟虑的推理。Gemini Ultra的成功,再次证明了其在多模态任务处理方面的卓越能力。

在图像基准测试中,Gemini Ultra的性能也优于以前的最先进的模型,而且无需物体字符识别(OCR)系统的辅助。这充分展示了Gemini天生的多模态特性,以及其复杂推理能力的早期迹象。

图片

图片

下一代功能:天生多模态

Gemini的设计理念与传统的多模态模型截然不同。传统方法通常为不同的模态训练单独的组件,然后将它们缝合在一起,这种方式难以进行更概念化和复杂的推理。而Gemini则被设计成天生的多模态,从一开始就对不同的模态进行预训练,然后通过额外的多模态数据进行微调,从而实现无缝地理解和推理各种输入。这种设计使得Gemini在多模态任务处理方面具有显著的优势,几乎在每个领域都达到了最先进的水平。

复杂的推理:洞察数据背后的知识

Gemini 1.0复杂的多模态推理能力,使其能够理解复杂的书面和视觉信息,从而在揭示大量数据中难以辨别的知识方面具有独特的技能。它能够通过阅读、过滤和理解信息,从数十万份文件中提取见解,从而在科学、金融等领域实现新的突破。

图片

理解文本、图像、音频等:多维度的信息处理

Gemini 1.0经过训练,能够同时识别和理解文本、图像、音频等多种信息类型,从而更好地理解细微的信息,并能够回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂科目的推理。

图片

高级编码:赋能软件开发

Gemini的第一个版本可以用世界上最流行的编程语言(如Python、Java、C++和Go)理解、解释和生成高质量的代码。它能够跨语言工作,并对复杂信息进行推理,这使它成为世界上领先的编码基础模型之一。

Gemini Ultra在多个编码基准方面表现出色,包括用于评估编码任务性能的HumanEval,以及谷歌的内部数据集Natural2Code。此外,Gemini还可以作为更先进的编码系统的引擎。谷歌推出的AlphaCode 2,就是一个使用Gemini的专业版本构建的更先进的代码生成系统。AlphaCode 2擅长解决竞争性编程问题,这些问题超越了编码,涉及复杂的数学和理论计算机科学。

图片

更可靠、更可扩展、更高效:强大的基础设施支持

谷歌使用内部设计的Tensor处理单元(TPU)v4和v5e,在人工智能优化的基础设施上大规模训练Gemini 1.0。这种设计使得Gemini的运行速度明显快于早期、更小、功能较差的型号。此外,谷歌还宣布了迄今为止最强大、最高效、最可扩展的TPU系统Cloud TPU v5p,专为训练尖端人工智能模型而设计。下一代TPU将加速Gemini的开发,帮助开发人员和企业客户更快地训练大规模生成人工智能模型。

图片

以责任和安全为核心:构建可信赖的AI

谷歌致力于在人工智能的发展中坚守责任和安全的底线。在谷歌的人工智能原则和产品的稳健安全政策的基础上,谷歌正在为Gemini的多模态能力添加新的保护措施。在开发的每个阶段,谷歌都在考虑潜在的风险,并努力测试和缓解这些风险。

为了找出内部评估方法中的盲点,谷歌正在与一组不同的外部专家和合作伙伴合作,在一系列问题上对模型进行压力测试。此外,为了诊断Gemini训练阶段的内容安全问题,并确保其输出符合政策,谷歌正在使用基准,如真实毒性提示。

让Gemini走向世界:赋能各行各业

Gemini 1.0目前正在一系列产品和平台上推出。Bard已经开始使用经过微调的Gemini Pro版本,从而实现更高级的推理、规划和理解。Pixel 8 Pro是第一款运行Gemini Nano的智能手机,它正在为记录器应用程序中的汇总等新功能提供动力,并从WhatsApp开始在Gboard中的智能回复中推出。

在接下来的几个月里,Gemini将出现在更多的谷歌产品和服务中,如搜索、广告、Chrome和Duet AI。谷歌已经开始在搜索中试用Gemini,从而为用户提供更快的搜索生成体验(SGE)。

从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。安卓开发者还可以通过AICore构建Gemini Nano。

对于Gemini Ultra,谷歌目前正在完成广泛的信任和安全检查,包括由受信任的外部各方组成红队,并在广泛使用之前,使用微调和从人类反馈中强化学习(RLHF)来进一步完善模型。明年初,谷歌还将推出Bard Advanced,这是一种新的尖端人工智能体验,让用户可以使用最好的型号和功能,从Gemini Ultra开始。

Gemini的发布是人工智能发展的一个重要里程碑,也是谷歌继续快速创新和负责任地提高模型能力的新时代的开始。Gemini的未来版本将进一步扩展其功能,包括计划和记忆方面的进步,并增加处理更多信息的上下文窗口,以提供更好的响应。人工智能将增强创造力,扩展知识,推进科学,并改变世界各地数十亿人的生活和工作方式。