Gemini 3革命性升级:Google发布AI模型与Antigravity IDE

0

Google近期在人工智能领域再次掀起波澜,正式发布了其旗舰AI模型的重大升级——Gemini 3 Pro,并同时推出了一款名为Antigravity的AI优先集成开发环境(IDE)。这一系列创新不仅标志着Google在AI技术道路上的持续领先,也为整个行业设定了新的技术标杆。

Gemini 3:迈向通用人工智能的里程碑

Google表示,Gemini 3的发布是向通用人工智能(AGI)迈出的又一步。这款最新版本的旗舰AI模型在模拟推理能力方面有了显著扩展,对文本、图像和视频的理解也得到了全面提升。截至目前,测试结果令人振奋——Google最新的LLM再次登上LMAarena排行榜榜首,以1501分的ELO成绩超越了Gemini 2.5 Pro整整50分。

Gemini 3 LMArena

事实准确性的重大突破

事实准确性一直是生成式AI模型的痛点,但Google声称Gemini 3在这一方面取得了长足进步。在包含1000个问题的SimpleQA Verified测试中,Gemini 3取得了72.1%的创纪录成绩。虽然这意味着最先进的LLM在通用知识问题上仍有近30%的错误率,但Google认为这已显示出实质性进展。在更具挑战性的"人类终极考试"(Humanity's Last Exam)中,Gemini 3在不使用工具的情况下取得了37.5%的成绩,再次刷新纪录。

数学与编程能力的飞跃

数学和编程是Gemini 3的重点发展方向。该模型在MathArena Apex测试中取得了23.4%的新纪录,在WebDev Arena中获得了1487 ELO的高分。在衡量模型代码生成能力的SWE-bench Verified测试中,Gemini 3达到了令人印象深刻的76.2%。

更自然、更实用的交互体验

Google强调,Gemini 3 Pro的输出将更加简洁,减少了过度礼貌的奉承性内容,提供用户真正需要的信息。模型扩展的推理能力使其能够更有效地保持任务焦点,代表用户采取行动。例如,Gemini 3可以对邮件进行分类和处理,创建待办事项列表、摘要、推荐回复以及触发建议操作的便捷按钮。这与当前Gemini模型仅创建基于文本的待办事项列表形成鲜明对比。

创新输出模式:视觉布局与动态视图

Gemini 3引入了名为"生成式界面"的创新功能,包括两种实验性输出模式:视觉布局和动态视图。视觉布局采用杂志风格的界面,在可滚动UI中包含大量图像。动态视图则利用Gemini的编程能力创建自定义界面,例如探索文森特·梵高生活和工作的网页应用程序。

深度思考模式(Deep Think)

虽然尚未完全成熟,但Gemini 3的深度思考模式(Deep Think)已展现出巨大潜力。在不使用工具的情况下,该模式在"人类终极考试"中取得了41%的成绩,令人难以置信地表现出色。Google表示,这一模式正在小范围内进行测试,未来将带来更多惊喜。

Antigravity:AI优先的编程革命

随着Gemini 3的发布,Google还推出了名为Antigravity的全新代理式开发平台。这款本质上以代理AI为核心的IDE,现已提供预览版。

智能代理的开发模式

Antigravity让开发者能够通过让智能代理完成繁琐工作来提高效率。Google将其描述为创建和监控多个开发代理的"任务控制中心"。Antigravity中的AI可以在编辑器、终端和浏览器之间自主操作,创建和修改项目,但所有操作都会以"工件