在科技日新月异的时代浪潮中,人工智能(AI)正以前所未有的速度渗透到我们生活的方方面面。2025年7月,OpenAI推出了一项名为“ChatGPT Agent”的创新功能,再次引发了业界对于AI自主性和应用前景的广泛关注。这项新功能的核心在于赋予AI助手完成多步骤任务的能力,通过控制其自身的网络浏览器,实现从信息搜集到实际操作的自动化流程。这标志着AI技术正在从单纯的辅助工具向具备初步自主性的智能代理转变。
ChatGPT Agent的发布,并非OpenAI在AI领域的一次孤立尝试,而是其持续探索和积累的必然结果。早在Agent之前,OpenAI就相继推出了“Operator”和“Deep Research”等工具,分别探索了AI操作计算机和进行深度研究的能力。此次Agent的推出,可以看作是对前两者优势的整合与升级,它不仅能够像Operator一样操作计算机,还能像Deep Research一样进行深入的网络信息挖掘,从而实现更为复杂和全面的任务自动化。
Agentic AI,即“代理型AI”,是当前科技行业内的一个热门概念。它指的是那些能够代表用户自主执行多步骤操作的系统。ChatGPT Agent正是OpenAI对这一概念的最新实践。用户可以通过Agent来处理各种复杂的任务,例如:
- 服装搭配与购买: 根据特定场合的需求,自动搜寻并购买合适的服装。
- PPT演示文稿制作: 搜集资料并自动生成内容丰富的演示文稿。
- 膳食计划制定: 根据用户的饮食偏好和营养需求,制定个性化的膳食计划。
- 财务报表更新: 自动抓取最新的财务数据,并更新到电子表格中。
为了实现这些功能,ChatGPT Agent整合了多种技术手段,包括网页浏览器、终端访问和API连接等。其中,“ChatGPT Connectors”允许Agent与Gmail和GitHub等常用应用程序进行无缝集成,从而扩展其应用范围。
在使用Agent的过程中,用户可以通过ChatGPT界面中的一个窗口,实时观察AI的所有操作。这个窗口相当于一个独立的“沙盒”,其中运行着一个虚拟的操作系统和网络浏览器,可以访问真实的互联网。需要强调的是,Agent的操作不会影响用户的个人设备,所有任务都在虚拟环境中完成。
与Operator类似,Agent在执行某些具有实际后果的操作(例如购物)之前,需要获得用户的明确许可。用户可以随时中断任务、接管浏览器或完全停止操作。此外,Agent还提供了一种“观察模式”,用于处理需要人工监督的任务,例如发送电子邮件。
随着Agent功能的推出,OpenAI计划在几周后关闭之前的Operator预览站点。这表明Agent在功能和性能上已经全面超越了Operator,成为OpenAI在AI代理领域的最新代表。
尽管OpenAI对ChatGPT Agent的性能寄予厚望,但实际表现可能会因具体情况而异。这是因为当前的AI模型本质上是一种复杂的模仿器,而非真正具备解决问题的智能。它们在组合各种场景方面具有一定的灵活性,但也存在许多盲点。ChatGPT Agent的训练数据主要来自计算机和工具的使用案例,因此,超出这些案例范围的任务可能会遇到困难。
OpenAI发布的《ChatGPT Agent系统卡》显示,Agent在执行需要以新颖方式连接多个步骤的复杂任务时可能会失败。例如,在模拟小型在线零售商网络的“网络靶场”评估中,Agent在没有帮助的情况下无法完成任务。虽然它可以成功执行初始研究步骤(例如识别网络上的服务器),但它难以继续前进,并且无法将必要的漏洞利用链接起来以实现最终目标。即使在提供提示的情况下,Agent仍然失败,这表明其解决超出其熟悉训练示例的复杂问题的能力存在明显的局限性。
OpenAI在评估电子表格任务时,发现使用不同的操作系统和软件可能会导致评分差异。他们使用OSX系统和LibreOffice进行了测试,而SpreadsheetBench的作者使用Windows环境和Microsoft Excel。尽管如此,OpenAI报告称,ChatGPT Agent在其自身的基准测试中取得了最先进的性能,但在得到公正的第三方验证之前,应该持保留态度。
在Humanity's Last Exam上,ChatGPT Agent的准确率为41.6%,高于OpenAI o3。在FrontierMath上,ChatGPT Agent的准确率达到了27.4%。
OpenAI声称,该系统在某些数据科学任务(如数据分析和建模)方面的表现优于人类。在DSBench上,ChatGPT Agent在数据分析任务中的得分为89.9%,而人类为64.1%;在数据建模任务中的得分为85.5%,而人类为65.0%。该代理在OpenAI的BrowseComp上获得了68.9%的分数,用于查找难以定位的网络信息,在SpreadsheetBench上获得了45.5%的分数,用于编辑电子表格,这高于OpenAI的其他AI模型。
值得注意的是,即使OpenAI表示Agent可以为用户制作PowerPoint幻灯片,但该公司也承认幻灯片生成仍处于测试阶段,并且输出在格式和润色方面可能感觉“初步”。
随着ChatGPT Agent能够直接在网站上执行操作并通过连接的服务访问用户数据,它容易受到提示注入攻击。OpenAI表示,它已经实施了安全措施来抵御提示注入,同时要求用户确认可能产生严重后果或看起来可疑的操作。该模型还经过培训,可以主动拒绝高风险任务,例如银行转账。
至于隐私,由于Agent在OpenAI服务器上的虚拟机中运行,因此用户无需担心该机器人访问存储在其设备上的本地私人数据。但是,您输入到ChatGPT Agent中的内容仍可能在其操作期间在网络上共享。除此之外,OpenAI表示,新代理的隐私控制允许用户一键删除所有浏览数据并注销活动会话。当用户在“接管模式”下控制浏览器时,OpenAI声明它不会收集或存储在这些会话期间输入的数据,包括密码。
ChatGPT Pro用户今天可以使用Agent,每月收到400条消息。Plus和Team订阅者将在未来几天内获得访问权限,每月有40条消息。企业和教育用户将在未来几周内获得访问权限。该功能在欧洲经济区和瑞士尚不可用。