ChatGPT Agent:AI智能体自主执行任务的技术突破与未来展望

1

在科技日新月异的今天,人工智能(AI)正以前所未有的速度渗透到我们生活的方方面面。OpenAI 最新推出的 ChatGPT Agent,无疑是这一趋势的又一力证。这项新功能集成了网页浏览与任务执行能力,预示着“具身智能”时代的加速到来。本文将深入剖析 ChatGPT Agent 的技术原理、应用前景及其潜在风险,并探讨其对未来工作模式和社会伦理的深远影响。

ChatGPT Agent:AI 智能体的全新突破

OpenAI 于 2025 年 7 月发布了 ChatGPT Agent,这一创新功能允许 AI 助手通过自主控制网络浏览器来完成多步骤任务。它融合了 OpenAI 早期推出的 Operator 工具和 Deep Research 功能的优势,使得 ChatGPT 能够在用户保持控制的前提下,自主浏览网站、运行代码和创建文档。这一更新标志着 OpenAI 在“具身智能”领域迈出了重要一步,预示着 AI 系统能够代表用户执行更为复杂和自主的任务。

“具身智能”是指 AI 系统具备自主行动能力,能够根据用户指令执行多步骤操作。OpenAI 表示,ChatGPT Agent 可以处理各种请求,例如为特定场合搭配和购买服装、创建 PowerPoint 幻灯片、规划膳食或使用新数据更新财务电子表格。该系统通过结合网络浏览器、终端访问和 API 连接来完成这些任务,包括与 Gmail 和 GitHub 等应用程序集成的“ChatGPT 连接器”。

在使用 Agent 时,用户可以在 ChatGPT 界面中观察到一个窗口,其中展示了 AI 在其私有沙盒中执行的所有操作。这个沙盒拥有自己的虚拟操作系统和网络浏览器,可以访问真实的互联网,但不会控制用户的个人设备。OpenAI 强调,ChatGPT 使用其自身的虚拟计算机来执行这些任务,从而在推理和行动之间灵活切换,以完成从开始到结束的复杂工作流程,而这一切都基于用户的指令。

AI快讯

与之前的 Operator 一样,Agent 功能在执行具有实际后果的特定操作(例如进行购买)之前,需要获得用户许可。用户可以随时中断任务、控制浏览器或完全停止操作。该系统还包括一个“观察模式”,用于需要用户主动监督的任务,例如发送电子邮件。由于 Agent 在功能上超越了 Operator,OpenAI 表示,公司早期的 Operator 预览网站将在关闭前继续运行几周。

技术原理与性能评估

ChatGPT Agent 的核心在于其强大的自然语言处理和自主决策能力。它能够理解用户的指令,将其分解为一系列可执行的步骤,并利用各种工具和 API 来完成这些步骤。例如,当用户要求创建一个 PowerPoint 幻灯片时,Agent 可以自动搜索相关信息、生成幻灯片内容,并进行排版和格式调整。

然而,OpenAI 也坦承,ChatGPT Agent 在完成多步骤任务方面的表现会因具体情况而异。这是因为 AI 模型并非完全成熟的问题解决型智能,而是一种复杂的模仿器。它在整合各种场景方面具有一定的灵活性,但也存在许多盲点。OpenAI 通过计算机使用和工具使用的示例来训练 Agent 及其组成部分;任何超出从训练数据中吸收的示例范围的内容都可能难以完成。

ChatGPT Agent 系统卡显示,Agent 在需要以新颖方式将许多步骤链接在一起的复杂任务中可能会失败。在“网络靶场”评估中,Agent 的任务是在模拟小型在线零售商的网络中执行全面操作。当被要求自行解决问题时,Agent 无法完成任务。虽然它可以成功执行初始研究步骤(例如识别网络上的服务器),但它很难在此基础上继续前进,并且无法将必要的漏洞利用链接起来以达到最终目标。即使在获得提示的情况下,Agent 仍然失败(在这种情况下可能是一件好事,因为它无法执行自动黑客攻击),这表明其解决超出其熟悉训练示例范围的复杂问题的能力存在明显限制。

OpenAI 报告称,ChatGPT Agent 在其自身的基准测量中实现了最先进的性能,但在未经公正的第三方验证之前,应始终持保留态度。在人类的最后一次考试中,该考试测试了 AI 在专家级问题上的表现,该模型获得了 41.6% 的准确率(相比之下,OpenAI o3使用工具的准确率为 24.9%)。在FrontierMath上,这是迄今为止设计的最困难的数学基准之一,它在工具访问下的准确率达到了 27.4%(o3 使用 Python 的准确率为 19.3%)。

该公司还声称,该系统在某些数据科学任务(如数据分析和建模(如创建预测或预测模型))方面的表现优于人类。在DSBench(旨在衡量该能力的基准)中,ChatGPT Agent 在数据分析任务中的得分为 89.9%,而人类为 64.1%,在数据建模任务中的得分为 85.5%,而人类为 65.0%。Agent 在 OpenAI 的BrowseComp中,用于查找难以定位的 Web 信息的得分为 68.9%,在SpreadsheetBench中,用于编辑电子表格的得分为 45.5%,这高于 OpenAI 的其他 AI 模型。

值得注意的是,即使 OpenAI 表示 Agent 可以为用户制作 PowerPoint 幻灯片,该公司也承认幻灯片生成仍处于测试阶段,并且输出在格式和润色方面可能感觉“简陋”。

AI快讯

潜在风险与安全措施

随着 ChatGPT Agent 功能的日益强大,其潜在的安全风险也日益凸显。由于 Agent 能够直接在网站上执行操作,并通过连接的服务访问用户数据,因此它容易受到提示注入攻击的影响。这种攻击试图通过误导 AI 模型的指令来操纵 AI 的行为(在这种情况下,可能是通过网页上的隐藏指令)。例如,某个网站可能有一个隐藏的表单字段,指示 AI 模型在您不知情的情况下输入您的信用卡信息。

OpenAI 表示,它已实施安全措施来防范提示注入,方法是训练模型识别并“抵抗”这些攻击,同时要求用户确认具有重要意义或看起来可疑的操作。该模型还经过训练,可以主动拒绝银行转账等高风险任务。在周四的直播中,一位 OpenAI 工程师将 Agent 描述为一个协同工作的 AI 模型系统,其中一些模型不断监控其他模型的行为是否存在可疑活动。如果这些监督者发现潜在的危险情况,他们可以假设停止该过程。

在隐私方面,由于 Agent 在 OpenAI 服务器上的虚拟机中运行,因此用户无需担心该机器人访问存储在其设备上的本地私人数据。但是,您输入 ChatGPT Agent 的内容仍可能在其操作期间在 Web 上共享。除此之外,OpenAI 表示,新 Agent 的隐私控制允许用户一键删除所有浏览数据并注销活动会话。当用户在“接管模式”下控制浏览器时,OpenAI 声明它不会收集或存储在此类会话期间输入的数据,包括密码。

ChatGPT Agent 的未来展望

ChatGPT Agent 的推出,无疑为 AI 的发展开辟了新的可能性。随着技术的不断进步,我们可以期待 Agent 在以下几个方面实现突破:

  • 更强的自主性:未来的 Agent 将能够更加自主地完成复杂任务,减少对人工干预的依赖。
  • 更广泛的应用:Agent 将被应用于更多的领域,例如医疗、教育、金融等,为各行各业带来效率提升。
  • 更个性化的服务:Agent 将能够根据用户的个性化需求,提供定制化的服务。

然而,我们也必须清醒地认识到,AI 的发展并非一帆风顺。在享受 AI 带来的便利的同时,我们也要积极应对其可能带来的挑战,例如失业、隐私泄露、安全风险等。

ChatGPT Agent 的出现,是 AI 技术发展的一个重要里程碑。它标志着 AI 正从辅助工具向自主智能体的转变。在未来的发展中,我们既要拥抱 AI 带来的机遇,也要积极应对其可能带来的挑战,共同构建一个更加美好的智能未来。