谷歌Gemini 2.0重磅发布:AI进入Agentic时代,三大助手引领未来

6

在人工智能领域,谷歌与OpenAI的竞争日趋白热化。近日,谷歌以一系列重磅更新强势回应,其中最引人瞩目的当属全新一代的Gemini 2.0系列模型。相较于OpenAI略显保守的更新,谷歌此次的发布更具前瞻性和颠覆性,预示着AI技术发展的新方向。

Gemini 2.0系列被谷歌定义为“Agentic时代”的AI模型,旨在让AI不仅能理解信息,更能主动行动,像助手一样协助人类完成任务。该系列的首发模型Gemini 2.0 Flash,延续了1.5 Flash版本在低延迟和高性能方面的优势,并在性能上实现了显著提升,部分基准测试甚至超越了1.5 Pro。这一突破性的进展,无疑将为AI在各行各业的应用带来更广阔的空间。

Gemini 2.0

Gemini 2.0 Flash:多模态与原生工具调用的强大组合

Gemini 2.0 Flash的一大亮点在于其强大的多模态输入输出能力。除了文本,该模型还支持图像、视频和音频作为输入,并能生成包含文本的图像和多语言文本转语音(TTS)音频作为输出。其中,对视频输入的支持在AI模型领域尚属首例,无疑为视频内容分析、理解和生成等应用场景带来了革命性的变革。

此外,Gemini 2.0 Flash还具备原生工具调用能力,可直接调用Google搜索、代码执行以及第三方用户定义的函数,极大地提升了模型的实用性和应用范围。这意味着AI不再仅仅是被动地接收指令,而是能够主动利用各种工具来完成任务,从而更好地服务于人类。

目前,Gemini 2.0 Flash已在谷歌Gemini应用中上线,并向开发者开放,通过谷歌AI Studio和Vertex AI的Gemini API提供。这一举措无疑将加速Gemini 2.0 Flash在各个领域的应用和创新。

Gemini 应用

更令人惊喜的是,谷歌AI Studio也迎来了全面升级,从UI到模型再到功能都焕然一新,并且完全免费。这无疑是谷歌对AI开发者的一项重大利好,将极大地降低AI开发的门槛,激发更多的创新。

谷歌AI Studio

Agentic时代:AI的主动性和行动力

Agentic模型是未来AI发展的重要方向。与传统的“你问我答”式AI模型不同,Agentic模型能够更好地理解周围世界,进行多步推理,并在用户监督下代表用户采取行动。这意味着AI不再是被动的工具,而是能够像一个真正的助手那样,主动地帮助人类完成任务。

Gemini 2.0正是谷歌在Agentic模型领域的一次大胆尝试。它具备以下关键能力:

  • 原生的用户界面操作能力:像人类一样操作电脑界面,实现更自然、更高效的人机交互。
  • 多模态推理:能够综合理解文字、图片、视频、声音等多种信息,进行更全面的分析和判断。
  • 长上下文理解:能够理解更长的对话历史,从而更好地把握用户的意图。
  • 复杂指令遵循和规划:能够理解复杂的指令,并制定合理的计划来完成任务。
  • 组合函数调用:能够灵活地调用各种函数,实现更复杂的功能。
  • 原生工具使用:能够直接调用Google搜索、代码执行等工具,提升解决问题的能力。
  • 更低的延迟:提供更快速的响应,提升用户体验。

Agentic模型

谷歌AI Agent研究原型:三大助手引领未来

为了进一步探索Agentic模型的应用,谷歌还发布了三个AI Agent助手的研究原型:

  1. Project Astra:通用AI助手

    Project Astra旨在成为一个通用的AI助手,能够实时理解和响应周围环境。它具备增强的多语言对话能力,能够使用Google搜索、Lens、地图等工具,并拥有长达10分钟的会话记忆。目前,Project Astra正在Android设备和原型眼镜上进行测试。

  2. Project Mariner:浏览器助手

    Project Mariner的目标是在浏览器中充当用户代理,自动化执行复杂任务。它能够理解网页内容(像素和Web元素),通过实验性Chrome扩展程序执行操作,并确保操作的安全性。在WebVoyager测试中,Project Mariner的成功率达到了83.5%。

  3. Jules:代码助手

    Jules是面向开发者的AI代码代理,旨在协助代码开发。它能够与GitHub工作流程集成,理解问题、制定计划,并自动执行代码和优化。Jules是构建通用AI代理的重要组成部分。

此外,谷歌还在游戏和机器人领域探索Agentic模型的应用。在游戏领域,谷歌正在与Supercell等开发商合作,基于Gemini 2.0开发游戏辅助工具,提供实时策略建议。在机器人领域,谷歌则致力于将Gemini 2.0的空间推理能力应用于机器人技术,提升机器人的空间感知与推理能力,以及与物理环境的交互能力。

谷歌AI Agent研究原型

谷歌此次发布的Gemini 2.0系列模型和AI Agent研究原型,无疑为AI的发展指明了新的方向。Agentic模型将成为未来AI发展的重要趋势,而谷歌正在积极探索这一领域的可能性,引领AI进入一个全新的时代。

谷歌的这些创新举措,预示着AI技术将更加深入地融入我们的生活和工作,成为我们真正的助手,帮助我们解决问题、提升效率、创造价值。未来的AI,将不再仅仅是一个工具,而是一个能够理解我们、帮助我们、甚至代表我们行动的智能伙伴。