OpenAI Agent模式：AI的“动手”时代来临，工作将被重新定义？

AI Agent 模式：开启人工智能的“动手”时代

人工智能领域正在迎来一个重要的转折点。如果说过去我们更多关注于AI的“动嘴”能力，即理解和生成文本，那么现在，焦点正转向AI的“动手”能力——让AI真正执行任务，完成工作。OpenAI 近期发布的 Agent 模式，正是这一趋势的集中体现。这一模式的推出，无疑将对整个行业产生深远的影响。

Agent模式的核心功能

OpenAI 的 Agent 模式，允许用户直接向 ChatGPT 提出具体需求，例如购买特定商品、设计产品原型并下单生产、或者进行信息搜集并生成报告。ChatGPT 将通过模拟用户操作，一步步完成这些任务。在演示中，完成一个复杂任务大约需要十分钟，但结果的完成度非常高。Agent 可以在虚拟环境中调用多种工具，包括文本浏览器、可视化浏览器和终端。通过终端，Agent 还可以进一步调用云服务 API、图片生成器，甚至运行代码。

更重要的是，这次 OpenAI 降低了使用门槛，Plus 和 Team 用户也能很快上手，每月可使用 40 次。这意味着更多的用户可以体验到 Agent 模式带来的便利。

Agent模式能做什么？

Agent 模式的核心在于其能够调用多种工具来完成复杂任务。在用户提出需求后，Agent 会自动开启一个虚拟机，并开始自动执行任务。在执行过程中，Agent 会反复请求用户确认，并允许用户随时手动接管。同时，用户也能在任务中途植入新需求，进行实时交互。

OpenAI 的 Agent 模式主要调用三种工具：

文本浏览器：负责大量浏览文字，搜寻信息。
可视化浏览器：负责定位到信息之后直接模拟一些键鼠交互，或者用来读取图像信息。
终端：可以运行代码，生成包括 PPT、Excel 在内的文件，和调用一些云端 API。

这种工具组合的设计非常精巧，文本浏览器负责信息搜集，可视化浏览器负责模拟用户操作，终端负责生成文件和调用 API。这三种工具相互配合，可以完成各种复杂的任务。

案例分析

下面我们来看几个 OpenAI 提供的演示案例，了解 Agent 模式的具体应用。

案例一：婚礼规划

研究员提出要规划参加另一个朋友婚礼的事宜，包括挑选一套符合着装要求的礼服（考虑场地、天气、中高档价位）、预订酒店，同时提供礼物建议。

首先，研究员在 ChatGPT 里切换到 Agent 模式，把上述需求发过去。Agent 启动虚拟电脑、加载环境（大约几秒）。

然后 ChatGPT 先试用文本浏览器打开了用户给的网页，搜索婚礼信息、着装要求、天气等。发现需要进一步确认婚礼日期时，模型也提出了澄清请求，但用户选择让它自己继续推理。

在找到了天气、场地信息后，AI 开始推荐合适的礼服，并切换到可视化浏览器检查礼服效果。完成任务后，继续搜索酒店和礼物。

null

最后给出的婚礼出行建议报告非常长而详细，涵盖了服装、酒店、礼物，甚至附上了非常多的链接，在酒店是否有空位的索引上，还附上了在线预订网站的截图。完成这样的一份报告，AI 只花了十分钟。相比于实际的工作量，AI 看起来还是要比人的效率高太多了。

案例二：定制贴纸

研究员要求给团队的吉祥物（是一只可爱的狗狗，昵称 Bernie）做出一批笔记本贴纸，并下单 500 张。

Agent 直接利用终端功能，调用了图像生成工具（Image Gen API）来生成一张动漫风格的狗狗插画，作为贴纸的设计图案。

接着，Agent 打开浏览器访问 Sticker Mule 网站，把设计好的图上传到网站，填写了贴纸数量、尺寸等，并把商品加入购物车。

最后它主动向用户确认，是否要用这张插画？是否继续下单？是否需要用户自己输入信用卡付款，还是让它继续完成？

null

任务停留在让用户接管输入信用卡，花了 7 分钟。

案例三：生成PPT

Agent 还可以自己连接 Google Drive API（类似于国内的网盘），读取文件之后生成一份 PPT。查询了赛季日程，生成了一个详细的旅行电子表格 + 带标注地图的旅行攻略。这个任务比较复杂，Agent 大约花了 25 分钟完成。

AI能力的进步

OpenAI 此次推出的新 Agent 模式，实际上并不是一项全新的创新，而是由 OpenAI 上半年推出的两样工具组合而成：Operator 和 Deep Research。

Operator 是原本只开放给了 Pro 用户的浏览器 Agent 工具，能够分析图形操作界面，并做出一定的操作。

而 Deep Research，则是一个深入研究的分析工具，可以阅读大量的网页，直接生成一份调研报告。

OpenAI 表示，在两样工具分别推出的过程中，发现很多用户用 Operator 写的提示词其实更像 Deep Research 的任务，比如“计划一次旅行并预订”。而 Deep Research 用户高度呼吁增加“登录网站、访问受保护资源”的能力，其实是 Operator 早就能做的。于是团队决定将两个产品融合起来。

此次 Operator 和 Deep Research 的融合看起来还是很成功的。两个从不同角度推动的 Agent 项目，最后融合起来，有了一些奇妙的化学反应，也避开了只使用浏览器的图形界面去阅读文字材料的低效，让最后能形成深度报告的时长变得并不高。

OpenAI 也提到了在为模型提供多种工具之后，怎样训练模型。

仍然是使用强化学习。一开始模型会“笨拙”地尝试用所有工具解决一个相对简单的问题。也就是说，它刚开始不会判断哪个工具更合适。

通过奖励它那些解决问题更高效、更合理的行为，模型能逐渐学会如何用这些工具。在什么情况下用哪个工具最合适。

比如如果是做创意作品，它会先搜索公开资源；然后用终端写代码、编译作品；最后用可视化浏览器验证结果。

基准测试成绩

在 Humanities Last Exam（人类的最后一场大考）中，能够使用浏览器、电脑和终端的 Agent 模式模型，已经能够达到 42% 的高分，相比于完全不使用工具的 o3，有一倍的提升。

而在世界范围内也是领先的——Grok 宣布带工具的 Grok 4 Heavy 在测试中取得 45% 的成绩。

使用工具后的高级数学推理能力，也有了进一步的提升。

null

公布的基准中，有两个是和人类的对比。

一个是在网页中操作的能力（WebArena），一个是操作电子表格的能力（SpreadsheetBench）。可以看到，两项基准中，Agent 模式仍然不如人类，但是网页操作，已经追近了人类水平。

这意味着，即便只是整合这些本身尚不如人类的工具，大模型也能获得显著的能力提升。Agent 时代，大模型能力的提升显然还有更高的天花板。

Agent 时代带来的挑战

Agent 是 2025 年 AI 领域的绝对风口。但风口之下，用户的真实体感往往并不完美：任务运行时间过长；稍复杂的任务就频频出错。此次 OpenAI 将 Operator 与 Deep Research 融合，或许正是为了缓解这种“粘滞感”，让 Agent 真正跑起来。

当 OpenAI 自己下场，一个更直接的问题摆在了所有类似 Manus 的第三方开发者面前：这究竟是会催生一个繁荣的 Agent 应用生态，还是会直接碾压所有创业公司？答案尚不明朗。

而对于用户而言，一个更切身的挑战随之而来：隐私和安全。

当 AI 在我们看不见的虚拟机里，点开一个网页、输入我们的个人信息时，谁来保证安全？

如果它被钓鱼网站骗走了我们的信用卡号，责任谁负？

OpenAI 对此的回应是，他们会采取极其严格的审查和安全措施，但它也希望整个社会都能花时间去适应和建立规范。

Agent 时代，确实是继 Chat 时代之后，一个截然不同的新阶段。

在 Chat 时代，我们学会了适应 AI 的“嘴”——我们慢慢习惯了它的幻觉，并学会在它的花言巧语中甄别真伪。这是一个关于“信息可信度”的挑战。

而在 Agent 时代，挑战则完全转向了 AI 的“手”。我们需要回答一系列全新的问题：我们究竟愿意多信任 AI？我们又愿意把多大的权限交出去，让它代替我们完成多少现实世界的事情？

而我们与 AI 的关系，也将因此被重新定义。

从更宏观的视角看，Agent 的爆发也将再次将一个老问题以更尖锐的方式推到我们面前：当 AI 能真正“干活”时，我们的工作会怎样？

当 AI 能独立完成一份包含数据检索、图像查证的复杂报告，并直接完成在线预订时，白领们的工作究竟是被赋能加速，还是被彻底威胁？

答案尚在风中飘。

但无论我们欢迎、恐惧还是茫然，一个由 Agent 驱动的、更自动化的新时代，确实正在加速到来。