谷歌于2023年12月6日发布了其最新的大型多模态模型——Gemini,标志着其在人工智能领域,尤其是在语言模型方面,迈出了重要一步。这款模型在多模态处理和通用能力上都超越了当前主流的大部分模型,预示着AI技术发展的新方向。Gemini从底层架构上便被设计为多模态,能够无缝地理解、操作和整合包括文本、图像、音频、视频和代码在内的多种信息类型。这意味着它具备了复杂的多模态推理能力和高级的编码能力,能够驱动谷歌的各项产品,提供更先进的客户服务,并应用于内容创作和营销活动。此外,Gemini在自然语言处理、代码生成和竞赛编程等任务中也展现出了卓越的性能。
谷歌的首席执行官Sundar Pichai强调,每一次技术变革都是推动科学进步、加速人类发展和改善生活质量的契机。他认为,当前人工智能领域的变革将是人类历史上最为深刻的一次,其影响远超移动互联网和Web的普及。人工智能有潜力为全球各地的人们创造前所未有的机遇,推动新一轮的创新和经济增长,并在知识、学习、创造力和生产力等方面实现前所未有的提升。
Demis Hassabis,Google DeepMind的首席执行官兼联合创始人,代表Gemini团队表示,人工智能一直是其毕生研究的重点。他坚信,构建更智能的机器能够以令人难以置信的方式造福人类。Gemini的诞生,正是为了实现这一愿景,它旨在构建新一代人工智能模型,模拟人类理解和交互世界的方式,使其更像是一位专业的助手或专家,而不仅仅是一款智能软件。
Gemini的开发是谷歌内部多个团队大规模协作的成果,它从一开始就被设计为多模态,能够泛化并无缝地理解、操作和组合文本、代码、音频、图像和视频等多种信息类型。同时,Gemini也是谷歌迄今为止最灵活的模型,能够在从数据中心到移动设备的各种平台上高效运行,其先进的功能将极大地提升开发人员和企业客户构建和扩展人工智能应用的能力。
Gemini 1.0针对不同的应用场景,优化了三个不同的版本:
- Gemini Ultra:谷歌最大、功能最强大的模型,适用于处理高度复杂的任务。
- Gemini Pro:谷歌在各种任务中进行扩展的最佳模型。
- Gemini Nano:谷歌最高效的模型,专为设备端任务而设计。
谷歌对Gemini模型进行了严格的测试,并在各种任务中评估了其性能。结果显示,从自然图像、音频和视频理解到数学推理,Gemini Ultra在32个广泛使用的大型语言模型研究和开发学术基准中,有30个超越了当前最先进的水平。尤其是在MMLU(大规模多任务语言理解)基准测试中,Gemini Ultra以90.0%的得分首次超越了人类专家。这一基准测试涵盖了数学、物理、历史、法律、医学和伦理学等57个学科,旨在评估模型的知识和问题解决能力。
Gemini Ultra在新的MMM(多模态多任务)基准测试中也取得了59.4%的最先进得分,该基准测试包含跨越不同领域的多模态任务,需要深思熟虑的推理。
传统的创建多模态模型的方法通常涉及为不同的模态训练单独的组件,然后将它们拼接在一起,以模拟部分功能。这种方法在执行某些特定任务(如描述图像)时可能表现良好,但在更概念化和复杂的推理方面则存在困难。Gemini被设计为天生的多模态,从一开始就在不同的模态上进行预训练,并通过额外的多模态数据进行微调,以进一步提高其有效性。这种设计使得Gemini能够从根本上无缝地理解和推理各种输入,优于现有的多模态模型,并在几乎所有领域都达到了最先进的水平。
Gemini 1.0复杂的多模态推理能力使其能够理解复杂的书面和视觉信息,从而能够发现在大量数据中难以辨别的知识,这使得它能够以数字化的速度在从科学到金融等多个领域实现新的突破。
Gemini 1.0经过训练,可以同时识别和理解文本、图像、音频等,从而更好地理解细微的信息,并能回答与复杂话题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。
Gemini的第一个版本能够理解、解释和生成世界上最流行的编程语言(如Python、Java、C++和Go)的高质量代码。其跨语言工作和复杂信息推理能力使其成为全球领先的编码基础模型之一。Gemini Ultra在多个编码基准测试中表现出色,包括HumanEval和Natural2Code。此外,Gemini还可以作为更高级编码系统的引擎。
谷歌使用其内部设计的Tensor Processing Units (TPUs) v4和v5e,在AI优化的基础设施上大规模训练Gemini 1.0。Gemini被设计为最可靠、最可扩展的训练模型,也是最高效的服务模型。在TPU上,Gemini的运行速度明显快于早期、规模较小、功能较弱的模型。这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心,为数十亿用户提供搜索、YouTube、Gmail、Google Maps、Google Play和Android等服务。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。谷歌还宣布了迄今为止最强大、最高效和可扩展的TPU系统——Cloud TPU v5p,专为训练尖端人工智能模型而设计。这款下一代TPU将加速Gemini的开发,并帮助开发人员和企业客户更快地训练大规模生成式人工智能模型,从而更快地将新产品和功能推向市场。
谷歌致力于在其所有工作中推进大胆而负责任的人工智能。在谷歌的AI原则和其产品中强大的安全政策的基础上,谷歌为Gemini的多模态能力增加了新的保护措施。在开发的每个阶段,谷歌都会考虑潜在的风险,并努力测试和减轻这些风险。Gemini拥有迄今为止谷歌所有人工智能模型中最全面的安全评估,包括偏见和毒性评估。谷歌还对网络攻击、说服和自主性等潜在风险领域进行了新的研究,并应用了谷歌研究的最佳对抗性测试技术,以帮助在Gemini部署之前识别关键的安全问题。为了限制危害,谷歌构建了专门的安全分类器,用于识别、标记和分类涉及暴力或负面刻板印象的内容。结合强大的过滤器,这种分层方法旨在使Gemini对每个人都更安全、更具包容性。此外,谷歌还在继续解决模型中已知的问题,如事实性、基础性、归因性和协同性。
Gemini 1.0目前正在通过一系列产品和平台推出。从2023年12月13日开始,开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。谷歌还计划在未来几个月内将Gemini引入其更多产品和服务中,如搜索、广告、Chrome和Duet AI。
Gemini Ultra目前正在进行广泛的信任和安全检查,包括由可信赖的外部团体进行的红队测试,并在广泛发布之前使用人工反馈的微调和强化学习(RLHF)进一步完善模型。作为此过程的一部分,谷歌将在明年年初向开发者和企业客户推出之前,向选定的客户、开发者、合作伙伴以及安全和责任专家提供Gemini Ultra,以进行早期实验和反馈。谷歌还将在明年年初推出Bard Advanced,这是一种全新的人工智能体验,您可以使用谷歌最好的模型和功能,从Gemini Ultra开始。
Gemini的发布是人工智能发展的一个重要里程碑,也是谷歌的一个新时代的开始。谷歌将继续快速创新,负责任地提高其模型的能力,扩展其在规划和记忆方面的能力,并增加上下文窗口以处理更多信息,从而提供更好的响应。谷歌对人工智能负责任赋能的世界的可能性感到兴奋,这是一个通过创新来增强创造力、扩展知识、推动科学和改变全球数十亿人生活和工作方式的未来。