ChatGPT Agent:AI自主任务执行的新纪元

1

AI Agent:赋能未来任务执行的新篇章

在快速发展的科技领域,人工智能(AI)正以惊人的速度渗透到我们生活的方方面面。2025年7月,OpenAI发布了一项引人注目的新功能——ChatGPT Agent,标志着AI技术在自主任务执行方面迈出了重要一步。这项创新性的“代理”AI功能,通过整合网页浏览与任务执行能力,预示着人机协作的新模式。

AI快讯

ChatGPT Agent:多任务处理的未来趋势

ChatGPT Agent的推出,并非偶然,而是OpenAI在AI领域持续探索的必然结果。它融合了此前Operator工具和Deep Research功能,使ChatGPT能够自主浏览网页、运行代码并创建文档,而用户则可以在整个过程中保持控制。这种“代理”AI,能够代表用户执行多步骤操作,极大地提高了工作效率和便捷性。

这项功能预示着AI技术发展的一个重要方向——从简单的信息提供者转变为能够自主执行复杂任务的智能助手。用户可以向Agent发出指令,如购买服装、制作PPT、规划膳食或更新财务报表。Agent将通过网页浏览器、终端访问和API连接等多种方式完成这些任务,甚至可以与Gmail和GitHub等应用程序集成。

虚拟沙箱:安全与隐私的保障

在使用Agent时,用户可以在ChatGPT界面中看到一个窗口,展示AI在其私有沙箱中的所有操作。这个沙箱拥有独立的虚拟操作系统和网络浏览器,可以访问真实互联网,但不会控制用户的个人设备。OpenAI强调,ChatGPT使用其自身的虚拟计算机执行任务,从而在推理和行动之间流畅切换,处理复杂的端到端工作流程。

AI快讯

与Operator类似,Agent在执行具有实际影响的操作(如购物)前,需要获得用户许可。用户可以随时中断任务、控制浏览器或停止操作。此外,系统还提供“观察模式”,用于需要用户主动监督的任务,如发送电子邮件。由于Agent在能力上超越了Operator,OpenAI计划在几周后关闭Operator预览站点。

性能评估:机遇与挑战并存

尽管OpenAI对ChatGPT Agent寄予厚望,但其在实际应用中的表现仍存在不确定性。AI模型的本质是复杂的模仿器,而非完全的问题解决智能。它在整合场景方面具有一定的灵活性,但也存在许多盲点。Agent的训练数据来自计算机和工具的使用案例,因此,超出这些案例的任务可能会难以完成。

OpenAI的ChatGPT Agent系统卡片显示,Agent在需要以新颖方式链接多个步骤的复杂任务中可能会失败。例如,在模拟小型在线零售商网络的“网络靶场”评估中,Agent无法独立完成任务。尽管它可以成功执行初始研究步骤(如识别网络上的服务器),但难以进一步操作,无法将必要的漏洞利用链接起来以实现最终目标。即使在获得提示后,Agent仍然失败,这表明其在解决超出其训练范围的复杂问题时存在明显的局限性。

基准测试:数据背后的真相

尽管如此,OpenAI报告称,ChatGPT Agent在其自身的基准测试中取得了最先进的性能。在Humanity's Last Exam(测试AI在专家级问题上的表现)中,该模型的准确率为41.6%(相比之下,OpenAI o3使用工具的准确率为24.9%)。在FrontierMath(迄今为止最困难的数学基准之一)中,它在工具访问下的准确率达到27.4%(o3使用Python的准确率为19.3%)。

该公司还声称,该系统在某些数据科学任务(如数据分析和建模)方面优于人类。在DSBench(旨在衡量该能力的基准)中,ChatGPT Agent在数据分析任务中的得分为89.9%,而人类为64.1%;在数据建模任务中的得分为85.5%,而人类为65.0%。Agent在OpenAI的BrowseComp(用于查找难以定位的网络信息)上的得分为68.9%,在SpreadsheetBench(用于编辑电子表格)上的得分为45.5%,高于OpenAI的其他AI模型。

值得注意的是,尽管OpenAI表示Agent可以为用户制作PowerPoint幻灯片,但该公司承认幻灯片生成仍处于测试阶段,输出在格式和润色方面可能显得“简陋”。

安全与隐私:不容忽视的挑战

OpenAI承认,ChatGPT Agent的推出带来了新的安全问题。由于Agent可以直接在网站上执行操作,并通过连接的服务访问用户数据,因此它容易受到提示注入攻击——黑客试图通过误导AI模型的指令来操纵AI的行为。例如,某个网站可能包含一个隐藏的表单字段,指示AI模型在您不知情的情况下输入您的信用卡信息。

OpenAI表示,它已经实施了安全措施来防范提示注入,通过训练模型来识别和“抵抗”这些攻击,同时要求用户确认重要或可疑的操作。该模型还经过训练,可以主动拒绝高风险任务,如银行转账。在周四的直播中,一位OpenAI工程师将Agent描述为一个协同工作的AI模型系统,其中一些模型不断监控其他模型的行为,以发现可疑活动。如果这些监督者发现潜在的危险情况,他们可以暂停该过程。

至于隐私,由于Agent在OpenAI服务器上的虚拟机中运行,用户无需担心机器人访问存储在其设备上的本地私人数据。但是,您输入到ChatGPT Agent中的内容仍可能在其操作过程中在网络上共享。除此之外,OpenAI表示,新代理的隐私控制允许用户一键删除所有浏览数据并注销活动会话。当用户在“接管模式”下控制浏览器时,OpenAI表示它不会收集或存储在这些会话期间输入的数据,包括密码。

Agent已于今日面向ChatGPT Pro用户推出,他们每月收到400条消息。Plus和Team订阅者将在未来几天内获得访问权限,每月有40条消息。企业和教育用户将在未来几周内获得访问权限。该功能尚未在欧洲经济区和瑞士提供。

结论:AI Agent的未来展望

ChatGPT Agent的推出,无疑是AI技术发展史上的一个重要里程碑。它不仅展示了AI在自主任务执行方面的巨大潜力,也引发了人们对AI安全、隐私和伦理问题的深入思考。随着技术的不断进步和完善,我们有理由相信,AI Agent将在未来的人机协作中发挥越来越重要的作用,为人们的生活和工作带来更多便利和价值。

AI快讯