ChatGPT Agent：AI自主任务执行的新纪元

AI Agent：赋能未来任务执行的新篇章

在快速发展的科技领域，人工智能（AI）正以惊人的速度渗透到我们生活的方方面面。2025年7月，OpenAI发布了一项引人注目的新功能——ChatGPT Agent，标志着AI技术在自主任务执行方面迈出了重要一步。这项创新性的“代理”AI功能，通过整合网页浏览与任务执行能力，预示着人机协作的新模式。

AI快讯

ChatGPT Agent：多任务处理的未来趋势

ChatGPT Agent的推出，并非偶然，而是OpenAI在AI领域持续探索的必然结果。它融合了此前Operator工具和Deep Research功能，使ChatGPT能够自主浏览网页、运行代码并创建文档，而用户则可以在整个过程中保持控制。这种“代理”AI，能够代表用户执行多步骤操作，极大地提高了工作效率和便捷性。

这项功能预示着AI技术发展的一个重要方向——从简单的信息提供者转变为能够自主执行复杂任务的智能助手。用户可以向Agent发出指令，如购买服装、制作PPT、规划膳食或更新财务报表。Agent将通过网页浏览器、终端访问和API连接等多种方式完成这些任务，甚至可以与Gmail和GitHub等应用程序集成。

虚拟沙箱：安全与隐私的保障

在使用Agent时，用户可以在ChatGPT界面中看到一个窗口，展示AI在其私有沙箱中的所有操作。这个沙箱拥有独立的虚拟操作系统和网络浏览器，可以访问真实互联网，但不会控制用户的个人设备。OpenAI强调，ChatGPT使用其自身的虚拟计算机执行任务，从而在推理和行动之间流畅切换，处理复杂的端到端工作流程。

AI快讯

与Operator类似，Agent在执行具有实际影响的操作（如购物）前，需要获得用户许可。用户可以随时中断任务、控制浏览器或停止操作。此外，系统还提供“观察模式”，用于需要用户主动监督的任务，如发送电子邮件。由于Agent在能力上超越了Operator，OpenAI计划在几周后关闭Operator预览站点。

性能评估：机遇与挑战并存

尽管OpenAI对ChatGPT Agent寄予厚望，但其在实际应用中的表现仍存在不确定性。AI模型的本质是复杂的模仿器，而非完全的问题解决智能。它在整合场景方面具有一定的灵活性，但也存在许多盲点。Agent的训练数据来自计算机和工具的使用案例，因此，超出这些案例的任务可能会难以完成。

OpenAI的ChatGPT Agent系统卡片显示，Agent在需要以新颖方式链接多个步骤的复杂任务中可能会失败。例如，在模拟小型在线零售商网络的“网络靶场”评估中，Agent无法独立完成任务。尽管它可以成功执行初始研究步骤（如识别网络上的服务器），但难以进一步操作，无法将必要的漏洞利用链接起来以实现最终目标。即使在获得提示后，Agent仍然失败，这表明其在解决超出其训练范围的复杂问题时存在明显的局限性。

基准测试：数据背后的真相

尽管如此，OpenAI报告称，ChatGPT Agent在其自身的基准测试中取得了最先进的性能。在Humanity's Last Exam（测试AI在专家级问题上的表现）中，该模型的准确率为41.6%（相比之下，OpenAI o3使用工具的准确率为24.9%）。在FrontierMath（迄今为止最困难的数学基准之一）中，它在工具访问下的准确率达到27.4%（o3使用Python的准确率为19.3%）。

该公司还声称，该系统在某些数据科学任务（如数据分析和建模）方面优于人类。在DSBench（旨在衡量该能力的基准）中，ChatGPT Agent在数据分析任务中的得分为89.9%，而人类为64.1%；在数据建模任务中的得分为85.5%，而人类为65.0%。Agent在OpenAI的BrowseComp（用于查找难以定位的网络信息）上的得分为68.9%，在SpreadsheetBench（用于编辑电子表格）上的得分为45.5%，高于OpenAI的其他AI模型。

值得注意的是，尽管OpenAI表示Agent可以为用户制作PowerPoint幻灯片，但该公司承认幻灯片生成仍处于测试阶段，输出在格式和润色方面可能显得“简陋”。

安全与隐私：不容忽视的挑战

OpenAI承认，ChatGPT Agent的推出带来了新的安全问题。由于Agent可以直接在网站上执行操作，并通过连接的服务访问用户数据，因此它容易受到提示注入攻击——黑客试图通过误导AI模型的指令来操纵AI的行为。例如，某个网站可能包含一个隐藏的表单字段，指示AI模型在您不知情的情况下输入您的信用卡信息。

OpenAI表示，它已经实施了安全措施来防范提示注入，通过训练模型来识别和“抵抗”这些攻击，同时要求用户确认重要或可疑的操作。该模型还经过训练，可以主动拒绝高风险任务，如银行转账。在周四的直播中，一位OpenAI工程师将Agent描述为一个协同工作的AI模型系统，其中一些模型不断监控其他模型的行为，以发现可疑活动。如果这些监督者发现潜在的危险情况，他们可以暂停该过程。

至于隐私，由于Agent在OpenAI服务器上的虚拟机中运行，用户无需担心机器人访问存储在其设备上的本地私人数据。但是，您输入到ChatGPT Agent中的内容仍可能在其操作过程中在网络上共享。除此之外，OpenAI表示，新代理的隐私控制允许用户一键删除所有浏览数据并注销活动会话。当用户在“接管模式”下控制浏览器时，OpenAI表示它不会收集或存储在这些会话期间输入的数据，包括密码。

Agent已于今日面向ChatGPT Pro用户推出，他们每月收到400条消息。Plus和Team订阅者将在未来几天内获得访问权限，每月有40条消息。企业和教育用户将在未来几周内获得访问权限。该功能尚未在欧洲经济区和瑞士提供。

结论：AI Agent的未来展望

ChatGPT Agent的推出，无疑是AI技术发展史上的一个重要里程碑。它不仅展示了AI在自主任务执行方面的巨大潜力，也引发了人们对AI安全、隐私和伦理问题的深入思考。随着技术的不断进步和完善，我们有理由相信，AI Agent将在未来的人机协作中发挥越来越重要的作用，为人们的生活和工作带来更多便利和价值。

AI快讯