Gemini 2.0 Flash 来了!脚踢 o1 拳打 Claude,多模态智能体时代开启?

4

谷歌的 Gemini 2.0 的发布,无疑给人工智能领域带来了新的冲击。尽管许多人还在翘首以盼 ChatGPT 4.5 的到来,谷歌却率先推出了这款新一代原生多模态模型 Gemini 2.0 Flash。谷歌 CEO 劈柴、DeepMind CEO 哈萨比斯、DeepMind CTO Kavukcuoglu 三位大佬的联袂官宣,更显示了谷歌对这款产品的重视和信心。

目前,Gemini 2.0 的正式版尚未开放使用,但谷歌已经将其提供给部分开发者进行内部测试,并积极地将其整合到 Gemini 和搜索等产品线中。不过,为了让更多人体验到 Gemini 2.0 的强大功能,谷歌特别推出了 Gemini 2.0 Flash 的实验版模型,并在网页端开放体验,移动端版本也即将推出。

Gemini 2.0 Flash 最大的亮点在于其卓越的性能,甚至可以与 OpenAI 的 o1 和 Anthropic 的 Claude 相媲美。从谷歌官方公布的成绩单来看,无论是多模态的图像、视频处理能力,还是在编码、数学等方面的表现,Gemini 2.0 Flash 实验版都几乎全面超越了 Gemini 1.5 Pro 002。

Gemini 2.0 性能对比

虽然谷歌没有提供与其他主流模型的直接数据对比,但 Gemini-Exp-1121,也就是 Gemini Flash 2.0,已经在竞技场中崭露头角,成为了新的领跑者。从竞技场榜单上可以看出,Gemini Flash 2.0 的性能已经超越了 o1-preview 和 o1-mini,仅次于 GPT-4o(2024-11-20)。这足以证明其模型的强大实力。

此外,Gemini 2.0 在编程方面也表现出色,在 SWE-bench Verified 基准测试中,直接击败了完整版的 o1。值得注意的是,Flash 是 Gemini 模型系列中参数量最小的模型,仅次于专为端侧开发的 Nano 模型。这让人不禁对完整版的 Gemini 2.0 充满期待。

Gemini 2.0 编程能力

Gemini 2.0 强大的多模态功能也是其一大亮点。除了支持图像、视频、音频等多模态输入外,Gemini 2.0 还支持多模态输出。除了常见的图文混排外,它还支持可控的多语种文本到语音(TTS)输出,这意味着它可以直接进行视频通话。

更令人印象深刻的是,Gemini 展现出了真正智能体的能力,能够直接在本地调用工具,例如谷歌搜索、代码工具以及第三方用户自定义的功能。这种能力使得 Gemini 2.0 不仅仅是一个模型,更像是一个能够自主完成任务的智能助手。

那么,如果将如此强大的多模态和高性能大模型搭载在智能体上,会产生怎样的效果呢?Gemini 2.0 在多模态能力和 Agent 能力上的出色表现,预示着它将成为智能体领域的强大驱动力。

1. 超级智能体:Project Astra

谷歌基于 Gemini 2.0 对超级智能体 Project Astra 进行了升级。在 Gemini 2.0 的支持下,Astra 不仅多模态能力显著提升,工具调用更加流畅,还具备了记住长达 10 分钟对话内容的能力,同时能够回忆起过去的历史对话。

在演示视频中,研究人员通过安装了 Project Astra 的测试版 Pixel 手机和智能眼镜,展示了 Astra 的多模态能力。首先,他在手机上打开了一封包含公寓信息的邮件,并请 Astra 帮忙识别并记住门禁密码。Astra 直接通过屏幕读取获取了密码,并指导他如何开门,同时将密码成功记住。

Project Astra 演示

2. 浏览器智能体: Project Mariner

除了 Project Astra,谷歌还基于 Gemini 2.0 构建了智能体 Project Mariner。这款智能体能够在浏览器中完成复杂的电脑操作任务。例如,它可以直接在浏览器中协助处理 Excel 表格。

此外,还有面向开发者的 AI 编程智能体和游戏智能体等。

许多科技大佬都预测,2025 年将是智能体爆发的一年。而 Gemini 似乎已经为此做好了充分的准备,它专为 Agent 而生,有望在未来的智能体浪潮中占据重要地位。

目前,Gemini 2.0 Flash 已经正式上线,感兴趣的朋友可以前往体验。Gemini 2.0 Flash 的订阅需要海外信用卡才能完成,如果没有海外信用卡,可以考虑申请一张 wildcard 用于 Gemini 的订阅。

Gemini 2.0 Flash 体验地址:双子座闪存 - Google DeepMind

wildcard 申请地址:wildcardWildCard 提供轻松订阅海外线上服务,无需上传身份证,一分钟注册,支持RMB。支持全球优质服务,GPT账号被封无忧退款。