Gemini 3革命:Google发布AI模型与Antigravity开发环境

0

Google近日宣布推出其最新的旗舰AI模型Gemini 3 Pro,以及一款名为Antigravity的AI优先集成开发环境(IDE),标志着人工智能技术进入了一个新阶段。这一系列更新不仅展示了Google在AI领域的持续创新,也为用户提供了更强大、更实用的AI工具。

Gemini 3:迈向通用人工智能的重要一步

Google表示,Gemini 3的发布是朝着通用人工智能(AGI)迈出的又一步。这一新版本的旗舰AI模型扩展了模拟推理能力,并在文本、图像和视频理解方面表现出显著提升。根据Google的数据,Gemini 3在LMArena排行榜上以1,501的ELO分数位居榜首,比Gemini 2.5 Pro高出50分。

Gemini 3模型展示

事实准确性提升

事实准确性一直是生成式AI模型的挑战,但Google声称Gemini 3在这一方面取得了重大进展。在1,000道题的SimpleQA Verified测试中,Gemini 3取得了72.1%的历史最高分。虽然这意味着最先进的LLM仍然会在近30%的一般知识问题上出错,但Google认为这仍然显示了显著的进步。在更具挑战性的"人类终极考试"(Humanity's Last Exam)中,Gemini 3在不使用工具的情况下取得了37.5%的分数,创下另一项记录。

数学与编程能力

数学和编程也是Gemini 3的重点关注领域。该模型在MathArena Apex中取得了23.4%的新纪录,在WebDev Arena中获得了1487 ELO的评分。在测试模型代码生成能力的SWE-bench Verified中,Gemini 3达到了令人印象深刻的76.2%。

Gemini 3 LMArena排行榜

改进的输出特性

Google表示,Gemini 3 Pro的输出更加简洁,减少了过度奉承的问题——这是所有过于礼貌的LLM中常见的问题。输出内容更加注重用户需要听到的信息,而非仅仅提供用户想听的内容。

此外,Gemini 3 Pro能够产生明显更丰富的输出。Google声称Gemini扩展的推理能力使其能够更有效地保持任务焦点,并代表用户采取行动。例如,Gemini 3可以对电子邮件进行分类并采取行动,创建待办事项列表、摘要、推荐回复以及触发建议操作的便捷按钮。这与当前的Gemini模型不同,后者仅会创建基于文本的待办事项列表。

生成式界面:全新的交互方式

Gemini 3引入了所谓的"生成式界面",以两种实验性输出模式的形式呈现:视觉布局和动态视图。

视觉布局模式

视觉布局模式是一种杂志风格的界面,在可滚动UI中包含大量图像。这种模式为用户提供了一种全新的信息呈现方式,使内容更加直观和吸引人。

动态视图模式

动态视图模式利用Gemini的编码能力创建自定义界面。例如,它可以创建一个探索文森特·梵高生活和工作的网络应用程序。这种模式展示了AI在创建交互式内容方面的潜力,为用户提供了更加个性化和沉浸式的体验。

Deep Think模式

虽然尚未完全准备好发布,但Gemini 3还将配备Deep Think模式。Google表示,该模式正在由一小群用户测试,准备稍后发布。Deep Think模式在不使用工具的情况下在"人类终极考试"中获得了41%的分数,这是一个令人印象深刻的成绩。

Antigravity:AI优先的编程革命

除了Gemini 3模型外,Google还推出了Antigravity,这是一款基于代理AI设计的全新IDE,本质上是一个智能开发平台。

代理开发理念

Antigravity的理念是让人类开发者通过让智能代理完成繁重的工作来提高效率。Google将Antigravity描述为创建和监控多个开发代理的"任务控制中心