Agent模式:AI的新篇章?
2025年,人工智能领域最引人瞩目的话题莫过于Agent模式。从“动嘴”到“动手”,AI正在经历一场深刻的变革。OpenAI发布的Agent模式,与此前备受关注的Manus模式有着异曲同工之妙,引发了业界的广泛关注。
Agent模式的核心功能
Agent模式让ChatGPT具备了执行复杂任务的能力。用户只需提出需求,例如购买婚礼礼服、设计宠物周边产品或生成PPT,ChatGPT即可自动完成。它通过虚拟机进行操作,模拟人类用户的行为,完成各种任务。虽然完成一个复杂任务可能需要10分钟,但其完成度却非常高。
OpenAI的Agent模式集成了文本浏览器、可视化浏览器和终端三种工具。文本浏览器用于搜索信息,可视化浏览器模拟用户交互,终端则用于运行代码、生成文件和调用云服务API。
Agent模式的应用场景
Agent模式的应用场景非常广泛,以下是一些典型的例子:
- 婚礼规划: 用户可以要求ChatGPT规划婚礼事宜,包括挑选礼服、预订酒店和提供礼物建议。ChatGPT会通过文本浏览器搜索婚礼信息、着装要求和天气等,然后推荐合适的礼服,并切换到可视化浏览器检查礼服效果。完成任务后,它会继续搜索酒店和礼物,最终生成一份详细的婚礼出行建议报告。
- 宠物周边设计: 用户可以要求ChatGPT为团队的吉祥物设计一批笔记本贴纸,并下单500张。ChatGPT会利用终端功能,调用图像生成工具生成一张动漫风格的狗狗插画,然后打开浏览器访问Sticker Mule网站,上传设计图,填写贴纸数量和尺寸等,并把商品加入购物车。最后,它会主动向用户确认是否要用这张插画,是否继续下单,以及是否需要用户自己输入信用卡付款。
- PPT生成: Agent模式还可以连接Google Drive API,读取文件后生成一份PPT。此外,它还可以查询赛季日程,生成一个详细的旅行电子表格和带标注地图的旅行攻略。
Agent模式的技术原理
OpenAI的Agent模式并非全新的创新,而是由Operator和Deep Research两款工具组合而成。Operator是一款浏览器Agent工具,能够分析图形操作界面并进行操作。Deep Research则是一款深入研究的分析工具,可以阅读大量网页并生成调研报告。
OpenAI通过强化学习来训练模型。一开始,模型会尝试用所有工具解决一个相对简单的问题。通过奖励那些解决问题更高效、更合理的行为,模型逐渐学会如何使用这些工具,以及在什么情况下使用哪个工具最合适。
Agent模式的性能表现
OpenAI在演示中展示了Agent模式在各项基准测试中的优异表现。例如,在Humanities Last Exam(人类的最后一场大考)中,能够使用浏览器、电脑和终端的Agent模式模型达到了42%的高分,相比于完全不使用工具的o3,提升了一倍。此外,Agent模式在高级数学推理能力方面也有了进一步的提升。
Agent模式的挑战与未来
尽管Agent模式具有巨大的潜力,但也面临着一些挑战。例如,任务运行时间过长,以及在处理复杂任务时容易出错。此外,隐私和安全也是Agent模式需要解决的重要问题。
当AI在虚拟机里打开网页、输入个人信息时,如何保证安全?如果它被钓鱼网站骗走了信用卡号,责任谁负?这些问题都需要OpenAI和整个社会共同思考和解决。
Agent模式的爆发将再次引发关于AI对人类工作影响的讨论。当AI能够独立完成一份包含数据检索、图像查证的复杂报告,并直接完成在线预订时,白领们的工作是被赋能加速,还是被彻底威胁?
无论我们欢迎、恐惧还是茫然,一个由Agent驱动的、更自动化的新时代,确实正在加速到来。
Agent模式是AI发展的一个重要里程碑。它标志着AI正在从“动嘴”向“动手”转变,具备了执行复杂任务的能力。虽然Agent模式还面临着一些挑战,但其巨大的潜力不容忽视。随着技术的不断发展,Agent模式将在各个领域得到广泛应用,深刻改变我们的生活和工作方式。