在科技的浪潮中,人工智能(AI)正以惊人的速度重塑着各行各业。2025年,OpenAI再次走在了技术前沿,推出了其最新的AI智能代理——ChatGPT Agent。这项创新功能不仅融合了网页浏览能力,还具备了执行复杂任务的能力,标志着AI在自动化和智能化方面迈出了重要一步。
ChatGPT Agent:智能代理的新纪元
ChatGPT Agent的发布,是OpenAI在“智能代理AI”领域的重要进展。它整合了此前推出的Operator工具和Deep Research功能,使得ChatGPT能够自主浏览网页、运行代码并创建文档。用户只需发出指令,Agent就能在保障用户控制权的前提下,完成一系列复杂任务。例如,Agent可以根据特定场合的需求,自主挑选并购买服装;创建内容丰富的PowerPoint演示文稿;规划营养均衡的膳食;或更新包含最新数据的财务报表。这些功能的实现,得益于Agent集成的网络浏览器、终端访问以及与Gmail和GitHub等应用程序相连的ChatGPT Connectors。
技术原理:虚拟世界的自主操作
在使用Agent时,用户可以通过ChatGPT界面上的窗口,实时观察AI在其专属的虚拟沙箱中的所有操作。这个沙箱配备了独立的虚拟操作系统和网络浏览器,能够访问真实的互联网,但不会影响用户的个人设备。OpenAI强调,ChatGPT Agent利用其自身的虚拟计算机执行任务,从而在推理和行动之间灵活切换,以完成从开始到结束的复杂工作流程。
与之前的Operator工具类似,Agent在执行具有实际影响的操作(如进行购买)前,需要获得用户的明确许可。用户可以随时中断任务、接管浏览器控制权或完全停止操作。此外,系统还提供“观察模式”,用于需要用户密切监督的任务,如发送电子邮件。
由于Agent在功能上超越了Operator,OpenAI计划在几周后关闭Operator预览网站。
性能评估:挑战与机遇并存
OpenAI对ChatGPT Agent的性能抱有很高的期望,但实际表现会因具体情况而异。AI模型本质上是一个复杂的模仿器,而非具备完整问题解决能力的智能体。虽然它在组合不同场景方面具有一定的灵活性,但也存在许多盲点。Agent及其组成部分,是通过学习大量的计算机和工具使用案例进行训练的。因此,超出训练数据范围的任务可能会变得难以完成。
例如,ChatGPT Agent系统卡显示,Agent在需要以新颖方式连接多个步骤的复杂任务中可能会失败。在“网络靶场”评估中,Agent的任务是在模拟小型在线零售商的网络中执行全面操作。在没有帮助的情况下,Agent无法完成任务。虽然它可以成功执行初始研究步骤(如识别网络上的服务器),但它无法进一步行动,也无法将必要的漏洞利用连接起来以达到最终目标。即使提供了提示,Agent仍然失败了(在这种情况下,这可能是一件好事,因为它无法执行自动黑客攻击),这表明其解决超出其熟悉训练示例的复杂问题的能力存在明显的局限性。
OpenAI在评估电子表格时使用了Windows环境和Microsoft Excel。在OSX环境中使用LibreOffice可能会导致较小的评分差异。OpenAI写道:“例如,作者发现GPT‑4o的总体硬性限制为15.02%,而我们得到的是13.38%。我们使用了完整的912道题基准。”
尽管如此,OpenAI报告称,ChatGPT Agent在其自身的基准测试中取得了最先进的性能。在Humanity's Last Exam上,该模型获得了41.6%的准确率(相比之下,使用工具的OpenAI o3为24.9%)。在FrontierMath上,它在工具访问的情况下达到了27.4%的准确率(o3与Python的得分为19.3%)。
该公司还声称,该系统在某些数据科学任务(如数据分析和建模)方面的性能优于人类。在DSBench上,ChatGPT Agent在数据分析任务中获得了89.9%的分数,而人类为64.1%,在数据建模任务中获得了85.5%的分数,而人类为65.0%。该Agent在OpenAI的BrowseComp上获得了68.9%的分数,在SpreadsheetBench上获得了45.5%的分数,高于OpenAI的其他AI模型。
值得注意的是,尽管OpenAI表示Agent可以为用户制作PowerPoint幻灯片,但该公司承认幻灯片生成仍处于测试阶段,输出在格式和润色方面可能感觉“简陋”。
安全与隐私:不可忽视的考量
OpenAI承认,ChatGPT Agent的推出带来了一些新的安全问题。由于Agent可以直接在网站上执行操作,并通过连接的服务访问用户数据,因此它容易受到提示注入攻击。黑客可以通过隐藏在网页上的指令,操纵AI的行为。例如,某个网站可能包含一个隐藏的表单字段,指示AI模型在用户不知情的情况下输入信用卡信息。
OpenAI表示,它已经实施了安全措施来防范提示注入攻击,包括训练模型识别并“抵抗”这些攻击,同时要求用户确认具有重要意义或看起来可疑的操作。该模型还经过训练,可以主动拒绝高风险任务,如银行转账。在周四的直播中,一位OpenAI工程师将Agent描述为一个协同工作的AI模型系统,其中一些模型会不断监控其他模型的行为,以发现可疑活动。如果发现潜在的危险情况,这些监督者可以暂停该过程。
在隐私方面,由于Agent在OpenAI的服务器上的虚拟机中运行,因此用户无需担心该机器人访问存储在其设备上的本地私人数据。但是,用户输入到ChatGPT Agent中的内容仍可能在其操作过程中在网络上共享。除此之外,OpenAI表示,新Agent的隐私控制允许用户一键删除所有浏览数据并注销活动会话。当用户在“接管模式”下控制浏览器时,OpenAI表示它不会收集或存储在此会话期间输入的数据,包括密码。
Agent今天面向ChatGPT Pro用户推出,他们每月收到400条消息。Plus和Team订阅者将在未来几天内获得访问权限,每月有40条消息。企业和教育用户将在未来几周内获得访问权限。该功能在欧洲经济区和瑞士尚不可用。
结论与展望
ChatGPT Agent的推出,无疑是人工智能领域的一项重大突破。它不仅展示了AI在自动化任务方面的巨大潜力,也引发了人们对安全和隐私问题的深入思考。随着技术的不断发展,我们有理由相信,未来的AI智能代理将会在更多领域发挥重要作用,为人类带来更高效、便捷的生活体验。然而,与此同时,我们也需要不断加强对AI技术的监管和控制,确保其在安全、可靠的前提下,为社会发展做出积极贡献。