OpenAI Agent模式：AI“动手”时代来临，自动化新纪元加速

在人工智能领域，Agent模式正引领一场深刻的变革。如果说过去的AI主要通过语音交互与我们沟通，那么现在，它们正迈向“动手”操作的时代。OpenAI发布的Agent模式，与早前备受关注的Manus模式有着异曲同工之妙，预示着AI将能够独立完成更多任务。

OpenAI的Agent模式

OpenAI于2025年7月18日发布的Agent模式，旨在让AI能够像人类一样自主完成任务。用户只需提出需求，如购买婚礼用鞋、设计宠物周边产品或生成PPT，ChatGPT便会在虚拟机中逐步执行这些操作。演示显示，完成一个复杂任务大约需要10分钟，且完成度相当高。该模式允许ChatGPT在虚拟环境中调用文本浏览器、可视化浏览器和终端，从而进一步调用云服务API、图片生成器和运行代码等。

更重要的是，OpenAI此次将Agent模式开放给Plus和Team用户，每月提供40次使用机会，大大降低了使用门槛。正如Sam Altman所说，这是一个全新的范式，社会需要学习如何与Agent安全地交互和共存。

Agent模式的功能

OpenAI的Agent模式与Manus模式类似，都能自动开启虚拟机执行任务，并允许用户随时手动接管。Agent模式主要调用三种工具：文本浏览器、可视化浏览器和终端，这些工具的组合设计非常精巧。文本浏览器用于大量浏览文字和搜寻信息，可视化浏览器则模拟键鼠交互或读取图像信息，而终端则可以运行代码，生成PPT、Excel等文件，并调用云端API。

婚礼规划案例

在一个演示中，研究员要求ChatGPT规划参加朋友婚礼的事宜，包括挑选礼服、预订酒店和提供礼物建议。ChatGPT首先切换到Agent模式，启动虚拟电脑并加载环境。随后，它使用文本浏览器打开用户提供的网页，搜索婚礼信息、着装要求和天气等。在确认婚礼日期后，AI开始推荐合适的礼服，并切换到可视化浏览器检查礼服效果。最终，AI生成了一份详细的婚礼出行建议报告，涵盖服装、酒店和礼物，并附上了在线预订网站的截图。

贴纸设计案例

在另一个演示中，研究员要求为团队的吉祥物设计一批笔记本贴纸，并下单500张。Agent直接利用终端功能，调用图像生成工具生成动漫风格的狗狗插画，作为贴纸的设计图案。接着，Agent打开浏览器访问Sticker Mule网站，上传设计图，填写贴纸数量和尺寸等，并将商品加入购物车。最后，它主动向用户确认是否继续下单，以及是否需要用户输入信用卡付款。整个过程仅花费7分钟。

PPT生成案例

Agent还能够连接Google Drive API，读取文件后生成PPT。此外，它还能查询赛季日程，生成详细的旅行电子表格和带标注地图的旅行攻略。这些复杂任务大约需要25分钟完成。

技术解析

OpenAI此次推出的Agent模式，实际上是Operator和Deep Research两项工具的组合。Operator是开放给Pro用户的浏览器Agent工具，能够分析图形操作界面并进行操作。Deep Research则是一个深入研究的分析工具，可以阅读大量网页并生成调研报告。OpenAI发现用户在使用这两项工具时，需求存在重叠，因此决定将它们融合起来。

这种融合非常成功，避开了只使用浏览器图形界面阅读文字材料的低效问题，缩短了生成深度报告的时长。OpenAI还提到了如何训练模型使用多种工具：通过强化学习，模型逐渐学会如何高效、合理地使用这些工具。

性能基准测试

OpenAI在演示中展示了新的基准测试成绩。在Humanities Last Exam中，能够使用浏览器、电脑和终端的Agent模式模型达到了42%的高分，相比于不使用工具的模型提升了一倍。在世界范围内，Grok 4 Heavy在测试中取得了45%的成绩。

使用工具后，高级数学推理能力也得到了进一步提升。在网页操作能力（WebArena）和操作电子表格能力（SpreadsheetBench）方面，Agent模式虽然仍不如人类，但在网页操作方面已经接近人类水平。

这意味着，即便只是整合这些本身尚不如人类的工具，大模型也能获得显著的能力提升。Agent时代，大模型能力的提升显然还有更高的天花板。

Agent时代的挑战与机遇

Agent是2025年AI领域的绝对风口。然而，用户体验往往并不完美，任务运行时间过长，复杂任务容易出错。OpenAI将Operator与Deep Research融合，旨在缓解这种“粘滞感”，让Agent真正跑起来。OpenAI的入场，也给第三方开发者带来了挑战：这究竟是会催生一个繁荣的Agent应用生态，还是会直接碾压所有创业公司？

对于用户而言，隐私和安全是更切身的挑战。当AI在虚拟机中点开网页、输入个人信息时，如何保证安全？如果它被钓鱼网站骗走了信用卡号，责任由谁承担？OpenAI表示会采取严格的审查和安全措施，但也希望整个社会都能花时间适应和建立规范。

Agent时代是继Chat时代之后的一个全新阶段。在Chat时代，我们学会了适应AI的“嘴”，学会甄别真伪。而在Agent时代，挑战转向了AI的“手”。我们需要回答一系列全新的问题：我们愿意多信任AI？我们又愿意把多大的权限交出去，让它代替我们完成多少现实世界的事情？

从更宏观的视角看，Agent的爆发将再次把一个老问题推到我们面前：当AI能真正“干活”时，我们的工作会怎样？当AI能独立完成包含数据检索、图像查证的复杂报告，并直接完成在线预订时，白领们的工作是被赋能加速，还是被彻底威胁？

无论我们欢迎、恐惧还是茫然，一个由Agent驱动的、更自动化的新时代，确实正在加速到来。