在科技浪潮的推动下,人工智能(AI)正以前所未有的速度渗透到我们生活的方方面面。OpenAI 最新发布的 ChatGPT Agent,无疑是这一趋势下的又一力作。这款“具有自主性”的 AI 代理,能够通过控制网络浏览器来完成多步骤任务,标志着 AI 技术在自动化和任务执行领域迈出了重要一步。
ChatGPT Agent 的核心在于整合了 OpenAI 此前推出的 Operator 工具和 Deep Research 功能。这意味着,用户现在可以借助 ChatGPT 来浏览网站、运行代码,甚至创建文档,而这一切都发生在用户可控的范围内。这种集成化的设计,不仅提升了 AI 的实用性,也为用户带来了更加流畅和高效的体验。
在技术行业,这种能够代表用户执行多步骤自主操作的系统被称为“Agentic AI”。OpenAI 此次推出的 ChatGPT Agent,正是对这一概念的深度实践。用户可以通过 Agent 来处理各种复杂任务,例如:
- 为特定场合搭配和购买服装
- 创建 PowerPoint 演示文稿
- 规划膳食
- 更新财务电子表格中的数据
这些任务的完成,得益于系统对网络浏览器、终端访问和 API 连接的综合运用,包括与 Gmail 和 GitHub 等应用程序集成的“ChatGPT 连接器”。用户在使用 Agent 时,可以在 ChatGPT 界面中观察到一个窗口,其中会显示 AI 在其私有沙盒中执行的所有操作。这个沙盒拥有自己的虚拟操作系统和网络浏览器,可以访问真实的互联网,但不会控制用户的个人设备。OpenAI 强调,ChatGPT 使用其自身的虚拟计算机来执行这些任务,从而实现推理和行动之间的流畅切换,最终完成复杂的任务流程。
与之前的 Operator 工具类似,Agent 在执行具有实际影响的操作(例如:进行购买)之前,需要获得用户的明确许可。用户可以随时中断任务、接管浏览器或完全停止操作。此外,系统还提供“观察模式”,用于需要用户主动监督的任务,例如:发送电子邮件。
OpenAI 宣布,由于 Agent 在功能上超越了 Operator,因此之前的 Operator 预览站点将在关闭前继续运行几周。这一举措旨在确保用户能够平稳过渡到新的 Agent 系统,并充分利用其强大的功能。
性能评估
虽然 OpenAI 对 ChatGPT Agent 的性能寄予厚望,但其在实际应用中的表现,很大程度上取决于具体情况。这是因为,当前的 AI 模型并非真正意义上的问题解决型智能,而更像是一个复杂的模仿者。它在组合各种场景方面具有一定的灵活性,但也存在许多盲点。OpenAI 通过大量的计算机和工具使用示例来训练 Agent 及其组成部分。因此,超出训练数据范围的任务,仍然可能难以完成。
例如,在 ChatGPT Agent 系统卡中,OpenAI 指出,Agent 在需要以新颖的方式将多个步骤链接在一起的复杂任务中可能会失败。在一个“网络靶场”评估中,Agent 需要在一个模拟小型在线零售商的网络中执行全面操作。结果显示,当 Agent 被要求独立解决问题时,它无法完成任务。虽然它可以成功执行初步的研究步骤,例如识别网络上的服务器,但它无法进一步操作,也无法将必要的漏洞利用链接起来以达到最终目标。即使在获得提示的情况下,Agent 仍然失败了(在这种情况下,这可能是一件好事,因为它无法执行自动黑客攻击)。这清楚地表明,Agent 在解决超出其熟悉训练示例范围的复杂问题时,存在明显的局限性。
尽管存在这些局限性,OpenAI 报告称,ChatGPT Agent 在其自身的基准测试中取得了最先进的性能。然而,在获得公正的第三方验证之前,我们仍需对此持谨慎态度。在 Humanity's Last Exam(一个测试 AI 在专家级问题上的表现的基准)中,该模型获得了 41.6% 的准确率(相比之下,OpenAI 的 o3 在使用工具的情况下获得了 24.9% 的准确率)。在 FrontierMath(迄今为止最困难的数学基准之一)中,它在使用工具访问的情况下达到了 27.4% 的准确率(o3 使用 Python 获得了 19.3% 的准确率)。
OpenAI 还声称,该系统在某些数据科学任务(如数据分析和建模,例如创建预测或预测模型)方面的表现优于人类。在 DSBench(一个旨在衡量这种能力的基准)中,ChatGPT Agent 在数据分析任务中获得了 89.9% 的分数,而人类为 64.1%。在数据建模任务中,Agent 获得了 85.5% 的分数,而人类为 65.0%。此外,Agent 在 OpenAI 的 BrowseComp 中获得了 68.9% 的分数,用于查找难以定位的网络信息,在 SpreadsheetBench 中获得了 45.5% 的分数,用于编辑电子表格,这些分数均高于 OpenAI 的其他 AI 模型。
值得注意的是,尽管 OpenAI 表示 Agent 可以为用户制作 PowerPoint 幻灯片,但该公司承认,幻灯片生成仍处于测试阶段,输出在格式和润色方面可能显得“简陋”。
安全与隐私
OpenAI 承认,ChatGPT Agent 的发布引入了新的安全问题。由于 Agent 可以直接在网站上执行操作,并通过连接的服务访问用户数据,因此它容易受到提示注入攻击的影响。提示注入攻击是指黑客试图通过误导 AI 模型的指令来操纵其行为(在这种情况下,可能是通过网页上的隐藏指令)。例如,某个网站可能包含一个不可见的表单字段,指示 AI 模型在用户不知情的情况下输入其信用卡信息。
为了防范提示注入攻击,OpenAI 表示,它已实施了安全措施,通过训练模型来识别和“抵抗”这些攻击,同时要求用户确认具有重要意义或看起来可疑的操作。此外,该模型还经过训练,可以主动拒绝高风险任务,例如银行转账。在周四的直播中,一位 OpenAI 工程师将 Agent 描述为一个协同工作的 AI 模型系统,其中一些模型会持续监控其他模型的行为,以发现可疑活动。如果这些监督者发现潜在的危险情况,他们可以暂停该过程。
在隐私方面,由于 Agent 在 OpenAI 服务器上的虚拟机中运行,因此用户无需担心该机器人访问存储在其设备上的本地私人数据。但是,用户输入到 ChatGPT Agent 中的内容仍可能在其操作过程中在网络上共享。除此之外,OpenAI 表示,新 Agent 的隐私控制允许用户一键删除所有浏览数据并注销活动会话。当用户在“接管模式”下控制浏览器时,OpenAI 声明它不会收集或存储在此类会话中输入的数据,包括密码。
ChatGPT Agent 已于今日面向 ChatGPT Pro 用户发布,这些用户每月可收到 400 条消息。Plus 和 Team 订阅者将在未来几天内获得访问权限,每月可收到 40 条消息。企业和教育用户将在未来几周内获得访问权限。目前,该功能在欧洲经济区和瑞士尚不可用。
我们尚未亲自使用 ChatGPT Agent,但我们可能会在稍后分享我们的使用体验。