AI Agent深度解析：ChatGPT如何重塑未来工作模式？

AI Agent：赋能未来，重塑工作模式

随着科技的飞速发展，人工智能（AI）已渗透到我们生活的方方面面。近日，OpenAI推出了其最新的AI Agent，这项创新技术融合了网页浏览和任务执行能力，预示着AI在自动化和智能化领域迈出了重要一步。本文将深入探讨ChatGPT Agent的功能、性能、安全性和未来发展趋势，带您全面了解这项颠覆性技术。

AI Agent的核心功能

OpenAI的ChatGPT Agent是一项集成了网页浏览和任务执行的新功能。它结合了OpenAI之前的Operator工具和Deep Research功能，允许ChatGPT在用户控制下浏览网站、运行代码和创建文档。这项技术标志着OpenAI在“智能代理”领域的最新进展，这类系统能够代表用户自主执行多步骤操作。

用户可以通过Agent处理各种请求，例如为特定场合挑选和购买服装、创建PowerPoint幻灯片、规划膳食或使用新数据更新财务电子表格。该系统利用网页浏览器、终端访问和API连接来完成这些任务，包括与Gmail和GitHub等应用程序集成的“ChatGPT连接器”。

在使用Agent时，用户可以在ChatGPT界面中观看AI的所有操作，这些操作在一个私有沙箱中进行。这个沙箱拥有自己的虚拟操作系统和网络浏览器，可以访问真实的互联网，但不会控制用户的个人设备。OpenAI表示，ChatGPT使用其自身的虚拟计算机执行这些任务，从而在推理和行动之间流畅切换，以处理从头到尾的复杂工作流程。

AI Agent的性能评估

OpenAI对ChatGPT Agent的性能提出了很高的期望，但实际完成多步骤任务的效果会因情况而异。AI模型并非完全形式的问题解决智能，而是一种复杂的模仿器。它在组合场景方面具有一定的灵活性，但也存在许多盲点。Agent在计算机和工具使用示例中接受过训练，因此，训练数据之外的任何事物都可能难以完成。

ChatGPT Agent系统卡显示，Agent在需要以新颖方式链接多个步骤的复杂任务中可能会失败。例如，在“网络靶场”评估中，Agent的任务是在模拟网络中进行全面操作，该网络旨在模仿小型在线零售商。当Agent独自解决问题时，无法完成任务。虽然它可以成功执行初步研究步骤（如识别网络上的服务器），但无法在此基础上进一步操作，并且无法将必要的漏洞利用链接起来以实现最终目标。即使在获得提示后，Agent仍然失败，这表明其解决超出熟悉训练示例的复杂问题的能力存在明显限制。

尽管如此，OpenAI报告称，ChatGPT Agent在其自身的基准测试中实现了最先进的性能，但在获得公正的第三方验证之前，应谨慎对待这些结果。在人类的最后考试中，该模型测试了AI在专家级问题上的表现，获得了41.6%的准确率（相比之下，OpenAI o3的使用工具的准确率为24.9%）。在 FrontierMath 上，这是迄今为止最困难的数学基准之一，它在工具访问下的准确率达到了27.4%（o3使用Python的准确率为19.3%）。

该公司还声称，该系统在某些数据科学任务（如数据分析和建模）方面的表现优于人类。在 DSBench 中，ChatGPT Agent在数据分析任务中获得了89.9%的分数，而人类为64.1%，在数据建模任务中获得了85.5%的分数，而人类为65.0%。Agent在OpenAI的 BrowseComp 中获得了68.9%的分数，用于查找难以定位的网络信息，在 SpreadsheetBench 中获得了45.5%的分数，用于编辑电子表格，这高于OpenAI的其他AI模型。

值得注意的是，尽管OpenAI表示Agent可以为用户制作PowerPoint幻灯片，但该公司承认幻灯片生成仍处于测试阶段，输出在格式和润色方面可能感觉“简陋”。

安全与隐私

OpenAI承认，此次发布引入了新的安全考虑因素。由于ChatGPT Agent可以直接在网站上执行操作并通过连接的服务访问用户数据，因此它容易受到提示注入攻击的影响。提示注入攻击是指黑客试图通过误导AI模型的指令来操纵AI的行为（在这种情况下，可能是通过网页上的隐藏指令）。例如，某个站点可能有一个隐藏的表单字段，指示AI模型在您不知情的情况下输入您的信用卡信息。

OpenAI表示，它已实施防范提示注入的措施，通过训练模型来识别和“抵抗”这些攻击，同时要求用户确认具有实际意义或看起来可疑的操作。该模型还经过训练，可以主动拒绝高风险任务（如银行转账）。在周四的直播中，一位OpenAI工程师将Agent描述为一个协同工作的AI模型系统，其中一些模型不断监控其他模型的行为，以发现可疑活动。如果这些监督者发现潜在的危险情况，他们可以假设停止该过程。

至于隐私，由于Agent在OpenAI服务器上的虚拟机中运行，因此用户无需担心该机器人访问存储在其设备上的本地私人数据。但是，您输入到ChatGPT Agent中的内容仍可能在其操作期间在网络上共享。除此之外，OpenAI表示，新代理的隐私控制允许用户一键删除所有浏览数据并注销活动会话。当用户在“接管模式”下控制浏览器时，OpenAI表示它不会收集或存储在这些会话期间输入的数据（包括密码）。

未来展望

ChatGPT Agent的推出是人工智能领域的一个重要里程碑。通过将网页浏览和任务执行能力相结合，Agent能够自主完成复杂的任务，极大地提高了工作效率和便捷性。然而，这项技术仍处于发展初期，面临着性能、安全和隐私等方面的挑战。

随着AI技术的不断进步，我们可以期待Agent在未来实现更高的智能化和自主性。例如，Agent可以更好地理解用户的意图，更准确地执行任务，并能够处理更复杂的工作流程。同时，我们也需要关注Agent的安全性和隐私问题，采取有效的措施来防范潜在的风险。

总的来说，ChatGPT Agent是一项具有巨大潜力的创新技术。它不仅可以提高我们的工作效率，还可以改变我们的生活方式。让我们拭目以待，看看Agent将如何塑造未来的世界。

A still image from an OpenAI ChatGPT Agent promotional demo video showing the AI agent searching for flights.

OpenAI writes,