OpenAI发布Agent模式:AI的“动手”时代来临,工作将被重新定义?

1

在人工智能领域,Agent模式正逐渐成为焦点。如果说过去我们更多关注AI的“动嘴”能力,即理解和生成语言,那么现在,AI开始进入“动手”的时代。既然AI已经具备了理解能力和足够的智能,为什么不能直接让它完成实际任务呢?

OpenAI在2025年7月发布了他们的Agent模式,这一模式与几个月前流行的Manus模式有着惊人的相似之处。这次,OpenAI将Agent模式的体验扩展到Plus和Team用户,每月提供40次的使用机会。

Sam Altman表示,Agent模式代表着一种全新的范式。就像我们学会使用互联网,并最终学会识别网络诈骗一样,整个社会需要学习如何与Agent安全地交互和共存。

Agent模式的功能与特点

OpenAI的Agent模式允许用户直接对ChatGPT提出具体需求,例如:

  • 购买商品:让AI在电商平台购买婚礼所需的鞋子。
  • 定制产品:设计宠物周边产品,并直接下单打印。
  • 信息整合:查找信息,并自动生成PPT。

ChatGPT在虚拟机中逐步完成这些任务。在演示中,完成一个复杂任务大约需要10分钟,但完成度非常高。ChatGPT可以在虚拟环境中调用文本浏览器、可视化浏览器和终端,还可以进一步调用云服务API、图片生成器,甚至运行代码。

Agent模式的核心在于其能够调用多种工具,包括:

  • 文本浏览器:用于大量浏览文字信息,快速搜寻关键信息。
  • 可视化浏览器:用于定位信息后模拟键鼠交互,或读取图像信息。
  • 终端:用于运行代码,生成PPT、Excel等文件,以及调用云端API。

这种工具组合的设计使得Agent模式能够高效地完成各种复杂任务。

文本浏览器

案例分析:婚礼规划

OpenAI的演示中,研究员提出规划参加朋友婚礼的需求,包括挑选符合着装要求的礼服(考虑场地、天气、价位)、预订酒店和提供礼物建议。ChatGPT在Agent模式下,首先启动虚拟电脑并加载环境,然后使用文本浏览器打开用户提供的网页,搜索婚礼信息、着装要求和天气等。当需要进一步确认婚礼日期时,模型会主动提出澄清请求。在找到天气和场地信息后,AI开始推荐合适的礼服,并切换到可视化浏览器检查礼服效果。完成任务后,继续搜索酒店和礼物。

最终生成的婚礼出行建议报告非常详细,涵盖服装、酒店和礼物,并附带大量链接,甚至包括在线预订网站的截图。完成这样一份报告,AI仅花费了十分钟,效率远高于人工。

礼服推荐

案例分析:定制贴纸

另一个演示展示了Agent模式的动手能力。研究员要求为团队的吉祥物(一只名叫Bernie的狗狗)制作一批笔记本贴纸,并下单500张。Agent直接利用终端功能,调用图像生成工具(Image Gen API)生成一张动漫风格的狗狗插画,作为贴纸的设计图案。接着,Agent打开浏览器访问Sticker Mule网站,上传设计好的图片,填写贴纸数量和尺寸等信息,并将商品加入购物车。最后,它主动向用户确认是否使用该插画、是否继续下单,以及是否需要用户自己输入信用卡付款。

定制贴纸

案例分析:生成PPT和旅行攻略

Agent还可以连接Google Drive API,读取文件后生成PPT。此外,它还可以查询赛季日程,生成详细的旅行电子表格和带标注地图的旅行攻略。这个复杂任务大约花费25分钟完成。

技术解析:Operator与Deep Research的融合

OpenAI此次推出的Agent模式并非全新的创新,而是由上半年推出的Operator和Deep Research两款工具组合而成。

  • Operator:原本只对Pro用户开放的浏览器Agent工具,能够分析图形操作界面并进行操作。
  • Deep Research:一个深入研究的分析工具,可以阅读大量网页,直接生成调研报告。

OpenAI发现,许多用户使用Operator编写的提示词更像是Deep Research的任务,例如“计划一次旅行并预订”。而Deep Research用户则希望增加“登录网站、访问受保护资源”的能力,这正是Operator的功能。因此,团队决定将两个产品融合。

这种融合避免了仅使用浏览器图形界面阅读文字材料的低效问题,缩短了生成深度报告所需的时间。

OpenAI还分享了如何训练模型使用多种工具。他们使用强化学习,让模型尝试用所有工具解决简单问题,通过奖励高效和合理的行为,模型逐渐学会如何选择合适的工具。例如,在进行创意作品时,模型会先搜索公开资源,然后用终端写代码、编译作品,最后用可视化浏览器验证结果。

基准测试:Agent模式的性能提升

OpenAI还公布了一系列新的基准测试成绩。

在Humanities Last Exam(人类的最后一场大考)中,能够使用浏览器、电脑和终端的Agent模式模型达到了42%的高分,相比于完全不使用工具的模型,提升了一倍。Grok宣布带工具的Grok 4 Heavy在测试中取得了45%的成绩。

大考成绩

使用工具后的高级数学推理能力也得到了提升。

高级数学推理能力

高级数学推理能力

在网页操作能力(WebArena)和电子表格操作能力(SpreadsheetBench)两项基准中,Agent模式仍然不如人类,但在网页操作方面已经接近人类水平。

这意味着,即使只是整合这些本身尚不如人类的工具,大模型也能获得显著的能力提升。Agent时代,大模型能力的提升还有更高的天花板。

Agent时代:机遇与挑战

Agent是2025年人工智能领域的焦点。然而,用户体验并非完美,任务运行时间过长,复杂任务容易出错。OpenAI将Operator与Deep Research融合,旨在缓解这种“粘滞感”,让Agent真正运行起来。

OpenAI的入场,使得第三方开发者面临一个问题:这究竟会催生一个繁荣的Agent应用生态,还是会直接碾压所有创业公司?

对于用户而言,隐私和安全是更大的挑战。当AI在虚拟机中打开网页、输入个人信息时,如何保证安全?如果AI被钓鱼网站欺骗,责任由谁承担?

OpenAI表示,他们会采取严格的审查和安全措施,并希望整个社会都能适应和建立规范。

Agent时代是继Chat时代之后的一个全新阶段。

在Chat时代,我们学会了适应AI的“嘴”,慢慢习惯了AI的幻觉,并学会识别真伪。这是一个关于“信息可信度”的挑战。

而在Agent时代,挑战则转向了AI的“手”。我们需要回答一系列全新的问题:我们愿意信任AI到什么程度?我们愿意交给AI多大的权限,让它代替我们完成多少现实世界的事情?

我们与AI的关系也将因此被重新定义。

从更宏观的角度看,Agent的爆发将再次把一个老问题以更尖锐的方式推到我们面前:当AI能真正“干活”时,我们的工作会怎样?

当AI能独立完成一份包含数据检索、图像查证的复杂报告,并直接完成在线预订时,白领们的工作是被赋能加速,还是被彻底威胁?

一个由Agent驱动的、更自动化的新时代正在加速到来。