OpenAI发布Agent模式：AI“动手”时代来临，工作模式将如何重塑？

在人工智能领域，Agent模式已成为一个备受瞩目的焦点。如果说过去我们更多地关注AI的“动嘴”能力，那么现在，AI的“动手”时代已经悄然来临。随着AI技术日益成熟，我们不禁思考：既然AI能够理解我们的需求，并且具备足够的智能，为什么不能直接让它完成实际的任务呢？

2025年下半年伊始，OpenAI便发布了其Agent模式，为AI领域的发展注入了新的活力。值得一提的是，OpenAI的Agent模式与此前备受关注的Manus模式有着惊人的相似之处，引发了业界的广泛关注。

7月18日，OpenAI的研究员在直播中详细介绍了即将推出的Agent模式。简单来说，Agent模式允许用户直接向ChatGPT提出具体的需求，例如：在电商平台上购买婚礼所需的鞋子，设计宠物周边产品并直接下单打印，或者查找信息并自动生成PPT等。在Agent模式下，ChatGPT将能够自主打开虚拟机，逐步完成用户设定的任务。

在演示过程中，完成一项复杂的任务大约需要10分钟。然而，从最终结果来看，任务的完成度非常高。ChatGPT可以在虚拟环境中调用文本浏览器、可视化浏览器和终端等工具。更重要的是，基于终端，ChatGPT还可以进一步调用云服务API、图片生成器，运行代码等，从而实现更多样化的功能。

OpenAI此次Agent模式的推出，不再将Pro用户作为优先体验对象，而是将Plus和Team用户纳入其中，并且每月提供40次的使用次数，充分满足用户的需求。

OpenAI的负责人Sam Altman表示，Agent模式是一种全新的范式。就像我们学会使用互联网，最终也学会了识别和防范网络诈骗一样，整个社会需要学习如何与Agent安全地交互和共存。

null

Agent模式的功能与应用

OpenAI的Agent模式在用户提出需求后，会自动开启一个虚拟机，并开始自动执行任务。在执行任务的过程中，Agent会反复请求用户确认，并允许用户随时手动接管。此外，用户还可以在任务执行过程中植入新的需求，实现实时的交互。

Agent模式可以调用文本浏览器、可视化浏览器和终端这三种工具，并且模型可以自主选择切换各种工具。这种工具组合的设计非常巧妙：文本浏览器负责大量浏览文字，搜寻信息；可视化浏览器则负责定位到信息后直接模拟一些键鼠交互，或者用来读取图像信息；而终端则可以运行代码，生成包括PPT、Excel在内的文件，以及调用一些云端API。

在OpenAI提供的第一个演示中，研究员提出要规划参加另一个朋友婚礼的事宜，包括挑选一套符合着装要求的礼服（考虑场地、天气、中高档价位）预订酒店，同时提供礼物建议。研究员首先在ChatGPT里切换到Agent模式，把上述需求发过去。Agent启动虚拟电脑、加载环境（大约几秒）。然后ChatGPT先试用文本浏览器打开了用户给的网页，搜索婚礼信息、着装要求、天气等。当发现需要进一步确认婚礼日期时，模型也会提出澄清请求，当然，用户也可以选择让它自己继续推理。

在找到天气和场地信息后，AI开始推荐合适的礼服，并切换到可视化浏览器检查礼服效果。完成任务后，继续搜索酒店和礼物。

最终给出的婚礼出行建议报告非常详细，涵盖了服装、酒店、礼物，甚至附上了非常多的链接，在酒店是否有空位的索引上，还附上了在线预订网站的截图。而完成这样的一份报告，AI只花了十分钟。相比于我们熟悉的一问一答，Agent模式看起来花费的时间更长，但从实际的工作量来看，AI的效率还是要比人类高得多。

如果说这个演示更多地体现了Agent模式的研究能力，那么另一个演示则直接展示了其动手能力。

研究员要求给团队的吉祥物（一只可爱的狗狗，昵称Bernie）做出一批笔记本贴纸，并下单500张。Agent直接利用终端功能，调用图像生成工具（Image Gen API）来生成一张动漫风格的狗狗插画，作为贴纸的设计图案。接着，Agent打开浏览器访问Sticker Mule网站，把设计好的图上传到网站，填写了贴纸数量、尺寸等，并把商品加入购物车。最后，它主动向用户确认，是否要用这张插画？是否继续下单？是否需要用户自己输入信用卡付款，还是让它继续完成？任务停留在让用户接管输入信用卡，总共花费了7分钟。

null

Agent还具备连接Google Drive API的能力，可以读取文件之后生成一份PPT。此外，它还可以查询赛季日程，生成一个详细的旅行电子表格和带标注地图的旅行攻略。不过，这个任务相对比较复杂，Agent大约花费了25分钟才完成。

OpenAI Agent模式的技术解析

OpenAI此次推出的Agent模式，实际上并不是一项全新的创新，而是由OpenAI上半年推出的两项工具组合而成：Operator和Deep Research。

Operator是原本只开放给Pro用户的浏览器Agent工具，能够分析图形操作界面，并做出一定的操作。而Deep Research则是一个深入研究的分析工具，可以阅读大量的网页，直接生成一份调研报告。

OpenAI表示，在两项工具分别推出的过程中，他们发现很多用户用Operator写的提示词其实更像Deep Research的任务，比如“计划一次旅行并预订”。而Deep Research用户则高度呼吁增加“登录网站、访问受保护资源”的能力，这实际上是Operator早已具备的功能。因此，OpenAI团队决定将两个产品融合起来。

这种融合的思路与OpenAI的团队文化非常接近：OpenAI内部非常看重工程师的自驱力，常常有多个类似的项目同时在推进，谁想做谁就能往前推进。

此次Operator和Deep Research的融合看起来非常成功。两个从不同角度推动的Agent项目，最终融合在一起，产生了一些奇妙的化学反应，也避免了只使用浏览器的图形界面去阅读文字材料的低效，使得最终形成深度报告的时长变得并不高。

OpenAI也提到了在为模型提供多种工具之后，如何训练模型。他们仍然使用强化学习的方法。一开始，模型会“笨拙”地尝试用所有工具解决一个相对简单的问题。也就是说，它刚开始不会判断哪个工具更合适。通过奖励它那些解决问题更高效、更合理的行为，模型能逐渐学会如何使用这些工具，以及在什么情况下使用哪个工具最合适。

例如，如果是做创意作品，它会先搜索公开资源；然后用终端写代码、编译作品；最后用可视化浏览器验证结果。

null

在公布的基准中，有两个是和人类的对比。一个是在网页中操作的能力（WebArena），一个是操作电子表格的能力（SpreadsheetBench）。可以看到，在这两项基准中，Agent模式仍然不如人类，但是网页操作已经追近了人类水平。

这意味着，即便只是整合这些本身尚不如人类的工具，大模型也能获得显著的能力提升。Agent时代，大模型能力的提升显然还有更高的天花板。

Agent时代：机遇与挑战并存

毫无疑问，Agent是2025年AI领域的绝对风口。然而，在风口之下，用户的真实体验往往并不完美：任务运行时间过长，稍复杂的任务就频频出错。一位早期Operator用户评论道：“每次点击和滚动，都像在炎热夏日中游泳。”

此次OpenAI将Operator与Deep Research融合，或许正是为了缓解这种“粘滞感”，让Agent真正跑起来。当OpenAI自己下场时，一个更直接的问题摆在了所有类似Manus的第三方开发者面前：这究竟是会催生一个繁荣的Agent应用生态，还是会直接碾压所有创业公司？答案尚不明朗。

而对于用户而言，一个更切身的挑战随之而来：隐私和安全。当AI在我们看不见的虚拟机里，点开一个网页、输入我们的个人信息时，谁来保证安全？如果它被钓鱼网站骗走了我们的信用卡号，责任谁负？OpenAI对此的回应是，他们会采取极其严格的审查和安全措施，但同时也希望整个社会都能花时间去适应和建立规范。

Agent时代，确实是继Chat时代之后，一个截然不同的新阶段。在Chat时代，我们学会了适应AI的“嘴”——我们慢慢习惯了它的幻觉，并学会在它的花言巧语中甄别真伪。这是一个关于“信息可信度”的挑战。而在Agent时代，挑战则完全转向了AI的“手”。我们需要回答一系列全新的问题：我们究竟愿意多信任AI？我们又愿意把多大的权限交出去，让它代替我们完成多少现实世界的事情？

而我们与AI的关系，也将因此被重新定义。从更宏观的视角来看，Agent的爆发也将再次将一个老问题以更尖锐的方式推到我们面前：当AI能真正“干活”时，我们的工作会怎样？当AI能独立完成一份包含数据检索、图像查证的复杂报告，并直接完成在线预订时，白领们的工作究竟是被赋能加速，还是被彻底威胁？

答案尚不明朗，但无论我们欢迎、恐惧还是茫然，一个由Agent驱动的、更自动化的新时代，确实正在加速到来。