ChatGPT Agent:AI自主执行任务的新突破与未来展望

1

在科技飞速发展的今天,人工智能(AI)正以前所未有的速度渗透到我们生活的方方面面。2025年7月18日,OpenAI发布了一项名为“ChatGPT Agent”的全新功能,再次引发了业界对于AI自主性和应用前景的广泛关注。这项新功能不仅整合了OpenAI此前推出的Operator和Deep Research工具的优势,更实现了AI在网络浏览、代码执行和文档创建等任务上的自主操作,标志着“智能代理”时代的加速到来。

ChatGPT Agent:AI自主性的新里程碑

ChatGPT Agent的核心在于其“agentic AI”特性,即系统能够代表用户自主执行多步骤操作。用户只需提出需求,如“为特定场合搭配并购买服装”、“创建PowerPoint演示文稿”、“规划膳食”或“更新财务电子表格”,Agent便能通过Web浏览器、终端访问和API连接等多种方式完成任务。这种能力得益于“ChatGPT连接器”,它能够与Gmail和GitHub等应用无缝集成,进一步拓展了AI的应用场景。

用户在使用Agent时,可以在ChatGPT界面内观察AI在其私有沙箱中的所有操作。这个沙箱拥有独立的虚拟操作系统和Web浏览器,能够访问真实的互联网,但不会控制用户的个人设备。OpenAI强调,ChatGPT Agent通过其自身的虚拟计算机执行任务,在推理和行动之间灵活切换,从而处理复杂的端到端工作流程。

A still image from an OpenAI ChatGPT Agent promotional demo video showing the AI agent searching for flights.

与之前的Operator类似,Agent在执行具有实际后果的操作(如购买行为)之前,需要获得用户的许可。用户可以随时中断任务、接管浏览器或完全停止操作。此外,系统还提供“观察模式”,用于需要用户主动监督的任务,如发送电子邮件。

随着Agent功能的日益强大,OpenAI宣布将在几周后关闭此前的Operator预览站点。

性能评估:理想与现实的差距

尽管OpenAI对ChatGPT Agent的性能寄予厚望,但其在实际应用中的表现仍存在诸多挑战。AI模型本质上是一个复杂的模仿器,而非真正具备解决问题的智能。它在组合现有知识方面具有一定的灵活性,但也存在许多盲点。Agent的训练数据主要来自计算机和工具的使用示例,因此对于超出这些示例范围的任务,Agent可能会感到无所适从。

OpenAI发布的ChatGPT Agent系统卡显示,Agent在需要以新颖方式组合多个步骤的复杂任务中可能会失败。例如,在“网络靶场”评估中,Agent的任务是在模拟小型在线零售商的网络中执行全面操作。在没有外部干预的情况下,Agent无法完成任务。尽管它可以成功执行初始研究步骤(如识别网络上的服务器),但难以继续推进,无法将必要的漏洞利用串联起来以实现最终目标。即使在提供提示的情况下,Agent仍然失败,这表明其在解决超出其训练范围的复杂问题时存在明显局限性。

Cyber Range evaluation

尽管如此,OpenAI报告称,ChatGPT Agent在其自身的基准测试中取得了最先进的性能。然而,这些结果在经过公正的第三方验证之前,应持保留态度。在Humanity's Last Exam中,Agent的准确率为41.6%(相比之下,使用工具的OpenAI o3为24.9%)。在FrontierMath上,Agent在使用工具的情况下达到了27.4%的准确率(o3使用Python的准确率为19.3%)。

OpenAI还声称,该系统在某些数据科学任务(如数据分析和建模)方面的表现优于人类。在DSBench上,ChatGPT Agent在数据分析任务中的得分为89.9%,而人类为64.1%;在数据建模任务中的得分为85.5%,而人类为65.0%。Agent在OpenAI的BrowseComp上获得了68.9%的分数,在SpreadsheetBench上获得了45.5%的分数,均高于OpenAI的其他AI模型。

值得注意的是,尽管OpenAI表示Agent可以为用户制作PowerPoint演示文稿,但该公司承认幻灯片生成仍处于测试阶段,输出在格式和润色方面可能显得“简陋”。

安全与隐私:不可忽视的挑战

OpenAI承认,ChatGPT Agent的推出带来了新的安全问题。由于Agent可以直接在网站上执行操作并通过连接的服务访问用户数据,因此它容易受到prompt injection attacks的攻击。例如,网站可能包含一个隐藏的表单字段,指示AI模型在用户不知情的情况下输入其信用卡信息。

OpenAI表示,它已经实施了安全措施,通过训练模型来识别和“抵抗”这些攻击,同时要求用户确认具有重要意义或可疑的操作。该模型还经过训练,可以主动拒绝高风险任务,如银行转账。在周四的直播中,一位OpenAI工程师将Agent描述为一个协同工作的AI模型系统,其中一些模型不断监视其他模型的行为,以发现可疑活动。如果发现潜在的危险情况,这些监督者可以暂停进程。

在隐私方面,由于Agent在OpenAI服务器上的虚拟机中运行,因此用户无需担心该机器人访问存储在其设备上的本地私人数据。但是,用户输入到ChatGPT Agent中的内容仍可能在其操作期间在网络上共享。除此之外,OpenAI表示,新代理的隐私控制允许用户一键删除所有浏览数据并注销活动会话。当用户在“接管模式”下控制浏览器时,OpenAI声明它不会收集或存储在此会话期间输入的数据,包括密码。

Agent已于今日面向ChatGPT Pro用户推出,每月可发送400条消息。Plus和Team订阅者将在未来几天内获得访问权限,每月可发送40条消息。企业和教育用户将在未来几周内获得访问权限。该功能目前在欧洲经济区和瑞士尚不可用。

AI智能代理的未来展望

ChatGPT Agent的发布,无疑是AI发展历程中的一个重要里程碑。它不仅展示了AI在自主完成复杂任务方面的巨大潜力,也引发了人们对于AI安全、隐私和伦理问题的深入思考。随着技术的不断进步,我们有理由相信,未来的AI智能代理将更加智能、安全和可靠,为人类创造更加美好的生活。

行业影响与未来趋势

ChatGPT Agent的出现,预示着AI在自动化领域的应用将迎来爆发式增长。各行各业的企业和个人,都可以通过AI智能代理来提高工作效率、降低运营成本,并实现业务创新。例如,在电商领域,AI智能代理可以帮助商家自动完成商品上架、价格调整、客户服务等任务;在金融领域,AI智能代理可以辅助分析师进行数据挖掘、风险评估和投资决策;在医疗领域,AI智能代理可以协助医生进行疾病诊断、药物研发和患者管理。

然而,AI智能代理的广泛应用,也带来了一些潜在的风险和挑战。例如,AI可能会被用于恶意目的,如网络攻击、虚假信息传播等;AI可能会取代人类的工作岗位,导致失业率上升;AI的决策可能会受到偏见和歧视的影响,从而产生不公平的结果。因此,我们需要加强对AI技术的监管和伦理约束,确保AI的发展符合人类的共同利益。

展望未来,AI智能代理将朝着以下几个方向发展:

  1. 更强的自主性和适应性:未来的AI智能代理将能够更好地理解用户的意图,自主完成更加复杂的任务,并适应不断变化的环境。
  2. 更高的安全性和可靠性:未来的AI智能代理将具备更强的安全防护能力,能够有效抵御各种攻击和威胁,并确保决策的可靠性和准确性。
  3. 更广泛的应用领域:未来的AI智能代理将渗透到更多的行业和领域,为各行各业带来创新和变革。
  4. 更人性化的交互方式:未来的AI智能代理将采用更加自然和友好的交互方式,使用户能够更轻松地与其进行沟通和协作。

AI智能代理的未来,充满着机遇和挑战。只有通过持续的技术创新、伦理规范和政策引导,我们才能充分发挥AI的潜力,实现人与AI的和谐共生,共同创造一个更加美好的未来。