Agent元年:解析AI Agent应用爆发背后的基石与阿里云的应对之策

0

2025年,AI Agent技术正以前所未有的速度渗透到各行各业,成为科技领域最耀眼的明星。全球AI Agent市场规模已突破50亿美元,并以高达40%的年增长率持续扩张。市场观察人士指出,过去三个月涌现的Agent产品数量,已经超过了去年一整年的总和,因此,2025年被誉为“Agent元年”绝非偶然。

OpenAI在2月份发布的Agent应用DeepResearch,如同一颗重磅炸弹,在全球范围内引爆了Agent应用的热潮。紧随其后,3月份发布的manus更是火上浇油,其邀请码一度成为稀缺资源,最终获得了Benchmark领投的7500万美元巨额融资。除了manus,海外市场上也涌现出了一批垂直领域的Agent公司,并且估值一路飙升。例如,编码Agent公司Cognition的估值即将突破100亿美元大关,而人力资源Agent公司Mercor也达到了20亿美元的估值。

红杉资本敏锐地捕捉到了Agent的崛起,并将其视为AI领域下一阶段的主角。福布斯在评选AI 50榜单时也强调:AI Agent将全面超越传统的聊天类AI应用。

福布斯的理由非常充分:聊天类应用主要用于解答问题或根据指令生成内容,而Agent的自动化程度更高,能够独立完成完整的工作流程,并直接交付高质量的结果。这意味着AI不再仅仅是“助手”,而是升级为真正的“执行者”。

每一次软件应用范式的变革,都会推动基础设施(infra)的进化,而基础设施的完善反过来也会极大地提升应用体验。这种相辅相成的关系,在科技发展史上屡见不鲜。

传统本地部署基础设施的成本高昂、弹性不足等缺点,加速了云计算的诞生和成熟。随着云计算基础设施的日臻完善,催生了万亿美元规模的SaaS软件行业,其中领头羊SalesForce的市值目前已达到约2570亿美元。云计算作为基础设施,也为淘宝天猫、抖音、YouTube等用户规模超亿级别的互联网应用奠定了坚实的基础,助力它们不断发展壮大。

然而,在Agent应用开始爆发的同时,与Agent使用相关的隐忧也逐渐显现。例如,终端性能限制、AI工具链配置繁琐、安全问题以及长期记忆缺失等。如果能够出现一款Agent专属的基础设施产品,解决Agent使用过程中面临的一系列问题,无疑将进一步加速Agent的普及。

在7月28日举行的上海世界人工智能大会(WAIC)上,阿里云正式推出了首款专为AI Agent打造的“超级大脑”——无影AgentBay。它能够突破本地部署的算力限制,提供专属Agent运行的沙箱环境,并为Agent配备了Browser、Code Space、Computer Use、Mobile Use、Memory等AI工具,同时还具备视觉理解、自然语言控制、任务解析等多项AI技能,只需三行代码即可接入,真正实现“拎包入住”,让AI开发者们彻底告别繁琐的安装和配置过程。

null

本地算力限制、安全性差:Agent面临的五大痛点

利用AI技术实现工作流程自动化,实际上由来已久。在生成式AI崭露头角之前,RPA(机器人流程自动化)类产品就已风靡一时。但受限于当时的AI能力相对较弱,RPA只能将简单的、单一的工作流程自动化,不具备真正的智能,也无法解决复杂的问题。

直到生成式AI的出现,各种真正具备智能的Agent应用才应运而生,人们也因此获得了显著的效率提升。

Agent本质上是一个能够调用各种工具的AI。以manus为例,它通过提示词来控制AI模型,并精心编排了一个工作流(workflow),使AI模型能够使用各种不同的工具,从而完成复杂的任务。

然而,无论是像DeepResearch这样的研究类Agent应用,还是像manus这样的通用Agent应用,都是通过网页或App的形式向终端用户提供服务。

这种提供方式并不完全适合专业的AI开发者、AI创业者以及企业用户。因为他们的需求是让Agent使用专有的数据,并无缝嵌入到业务流程中,从而持续地为业务创造价值。

商业化使用Agent,首先需要解决的就是终端性能问题。当一个功能强大的Agent在用户本地的终端运行时,会遇到各种各样的问题。

首当其冲的就是AI推理的算力限制。正如前文所述,Agent本质上是一个能够调用各种工具的AI,它由一个能力强大的AI模型以及一系列供其调用的工具链组成。运行能力强大的AI模型,通常需要AI专用的算力,由GPU或AI专用芯片提供。几乎没有消费级的PC或手机能够部署高精度的大模型本体。因此,目前大量的Agent公司都采用了云端算力的方式,将模型的训练和推理都放在云端完成。

其次是执行任务的算力。Agent任务具有高并发、高算力需求的特点。企业在本地部署Agent后,当Agent支持的业务量开始快速增长时,马上就需要更多的算力,而本地部署的速度往往跟不上业务发展的需求;反过来,当业务处于闲置状态时,又没有那么多的算力需求,这无疑会对企业造成巨大的资源浪费。

根据阿里云无影事业部总裁张献涛博士的观察:manus在初期采用本地服务器的虚拟机来执行任务,这也导致其在用户大量涌入时,出现了性能不足、服务不稳定的情况,一定程度上影响了初期口碑。他认为,如果manus的诞生晚三个月,这个问题就很容易得到解决。

除了算力限制,AI工具配置的繁琐也是一个不容忽视的问题。Agent本质上是一个能够调用各种工具的AI,如果不能调用工具,Agent就很难具备解决复杂问题的能力。

例如,要搭建一个销售类Agent,它需要调用CRM(客户关系管理系统)来获取客户信息,调用内部的知识库以便自动向客户介绍产品,还需要调用各种通讯工具以便直接与客户取得联系。

国内各地已经涌现出不少的“智算中心”,可以在一定程度上缓解算力限制问题,但是这些“智算中心”往往只提供算力,而不提供搭建Agent所需的各种工具链。

企业要定制与业务紧密耦合的Agent,就需要自行搭建工具链。这是一个非常复杂的工程,一方面需要投入大量的开发成本,另一方面,在Agent正式部署之前,需要耗费大量的时间进行开发,这反而会延缓企业的业务发展速度。

在解决了算力限制和AI工具配置的问题之后,专业AI开发者和企业用户很快会遇到第三个问题:权限冲突。

开发和部署Agent的根本目的,是将其嵌入到自身的业务中。而在这个过程中,除了要调用各种各样的工具之外,还需要与业务中的各类软件紧密配合。

以前文提到的销售类Agent为例,当它调用CRM、内部知识库和对外通讯工具时,不仅会占用本地计算资源,更麻烦的是,它会抢占人类员工的访问和操作权限。当Agent不是与人类协同工作,而是互相内耗时,反而可能会降低整个团队的整体工作效率。

对于企业用户而言,还有一个非常重要的考量因素,那就是安全性。企业使用Agent,其根本目的在于增强自身的业务,或者提高员工的工作效率,这就势必需要使用公司的内部数据。但是Agent任务的执行过程往往是一个黑盒子,执行过程对于用户来说是不透明的,有可能对本地电脑的文件系统进行修改、删减等操作,轻则留下垃圾文件造成系统臃肿,重则造成文件丢失或数据泄露。

更进一步来说,Agent在调用工具时,本身就存在着安全隐患。据统计,超过43%的MCP(Model Context Protocol,调用AI工具的协议)服务节点存在未经验证的Shell调用路径,超过83%的部署存在MCP配置漏洞,88%的AI组件部署根本没有启用任何形式的防护机制。

还是以销售类Agent为例,它需要直接与外部客户进行沟通和接触,如果其安全性无法得到保障,那么对于企业的业务和信誉都将造成重大的打击。

事实上,当未来Agent的使用越来越普及,安全和信任的重要性在AI时代将比在互联网时代更加重要。

当真正将本地部署的Agent应用起来之后,企业还会面临一个问题,那就是Agent缺乏长期记忆。当缺乏语义记忆和场景记忆时,Agent只能完成一次性的任务,这会严重影响Agent在企业业务中的使用范围。

如果企业用户能够为Agent赋予长期记忆,那么Agent除了能够完成多次任务之外,企业还可以根据这些记忆来迭代Agent,使其对业务或用户的理解越来越深入,从而在特定任务上的能力越来越强。

正如张献涛博士所言,如果只是完成一个简单的任务,可能并不需要长期记忆。但是如果将Agent定位成一个数字分身或数字员工,记忆能力,尤其是长期记忆能力,就成为了必不可少的能力。

Agent专用Infra:安全、快速、低成本部署,集成AI工具链的沙箱环境

阿里云在AI领域已经进行了全面的布局,涵盖了模型、工具、开发者社区,当然也包括其自身的Agent。例如,他们开源了自主搜索AI智能体项目WebAgent,用于提升AI在多步骤信息搜索领域的性能。

作为在AI领域布局最为完整的厂商,再结合阿里云多年来在云计算领域的积累,他们推出了Agent infra类产品AgentBay。该产品深入扎根客户的需求,旨在解决Agent使用过程中存在的各类痛点。

针对最为紧迫的算力限制痛点,AgentBay提供了来自云端的高弹性和高并发算力。其高并发能力能够达到百万级别,充分满足爆款AI应用高增长的算力需求,彻底释放本地算力限制。

此外,AgentBay只需三行代码即可接入,真正实现“拎包入住”,让AI开发者们彻底告别繁琐的安装和配置过程。

针对AI工具配置繁琐和本地部署权限冲突这两个问题,AgentBay可以在云端一键生成专属Agent运行的沙箱环境,从而保证Agent执行过程中对本地环境的零侵入,也就不存在占用本地计算资源、抢占人类员工的访问和操作权限等问题。

而且,这些沙箱环境集成了Browser、Code Space、Computer Use、Mobile Use、Memory等AI工具,能够执行代码运行、网页浏览、数据分析、程序开发、表格制作等基础任务,同时还具备视觉理解、自然语言控制、任务解析等多项AI技能。

例如,Browser工具可以将云端浏览器自动化,支持网页爬取、自动化测试、流程处理,从而帮助AI Agent获得获取外部信息的能力。

Code Space则是一个更为关键的工具,它提供代码运行环境,支持多语言解释器和开发工具链。有了Code Space,Agent可以自主编写代码,按需生成自身在特定任务中所需的工具,然后再去调用这些工具,这样一来,理论上Agent能够完成任何企业需要的任务。

针对AI安全性差的问题,阿里云此前就发布了AI云盾(Cloud Shield for AI)系列产品,旨在提供模型应用端到端的安全解决方案。现在,阿里云将这些能力进行了升级,并集成到了AgentBay中。

AgentBay能够为Agent应用提供多重安全防护,包括:环境隔离、网络隔离、文件系统隔离、资源限制以及全量审计。它完全符合企业级安全标准,支持SOC2/HIPAA合规,能够让中小企业以较低的成本获得军工级的安全能力。

对于企业级用户在搭建跨多个部门和平台、完成复杂任务的Agent时,AgentBay提供了Context持久化云工作区。

Context持久化云工作区,既解决了Agent没有长期记忆的问题,又能够支持不同部门之间的协同。

具体来说,它拥有自研的跨平台数据漫游系统,能够实现用户数据、状态甚至内存级别的持久化。

此外,它还支持会话间状态保持,可以动态挂载给不同的环境,支持按需加载和实时切换。

对于不同部门之间的协作,它支持免密登录、历史文件编辑、专属知识等高阶能力。

在Context持久化云工作区的支持下,企业用户不仅能够让Agent拥有长期记忆,不断迭代Agent的能力,还能够搭建跨部门的、可解决复杂问题的Agent,并支持不同部门的协作,共同使用和优化Agent。

在解决了Agent使用过程中存在的五大痛点之后,AgentBay还为企业用户提供了一些更为周到且影响深远的功能和服务。

例如,它同时兼容不同的操作系统平台,包括Windows、Linux和Android。

对于Windows,它提供云端Windows桌面环境,支持Windows应用程序自动化;对于Linux,它提供云端Linux系统环境,支持命令行和系统工具;对于Android,它拥有云端安卓环境,支持移动应用测试和流程自动化。

这样一来,无论是哪个平台的开发者,都能够在自己熟悉的环境中开发Agent应用。而对于大型企业而言,他们的服务和应用可以在Windows、Linux、Android等多个系统间无缝切换,这无疑将极大地助力Agent的普及。

此外,AgentBay积极拥抱开源,支持开发者共建生态;而且它支持MCP Server自由定制与托管,开发者和企业可以共同构建专属的AgentBay生态。

据张献涛博士透露,自从四月上旬发布AgentBay的邀测版本后,不到三个月的时间里,已经有超过1000家客户使用AgentBay来打造自己的Agent。一些头部的Agent应用厂商也在与阿里云合作对接。

足够优秀的专属Infra:Agent应用生态持续繁荣的基石

当前AI领域最重要,同时也最为繁荣的,是整个技术栈的两端:应用和基础设施。现在的AI发展态势与移动互联网时代非常相似:当时各类App层出不穷,极大地促进了IT基础设施向云计算时代的迈进。

现在我们看到了Agent应用端的繁荣,无论是大型科技公司,还是初创企业,都在Agent应用领域积极耕耘;无论是通用Agent、专用Agent,还是各种定制Agent,创新层出不穷。

但是,应用不是建立在空中楼阁之上的,基础设施的完善是应用繁荣的基石。正如修好了高速公路和铁路,才有了物流和电商的繁荣;有了足够的网络基础设施,才能创造出淘宝天猫、抖音、优酷等现象级应用;有了足够多的充电桩,才有了新能源汽车的爆发。Agent应用的繁荣和持续创新,同样需要足够强大的基础设施来支撑。

阿里云不仅在亚太地区的云服务市场占据最高的市场份额,而且根据IDC的报告,它在中国AI基础设施市场也获得了23%的市场份额,同样排名第一。

AgentBay,不仅依托于阿里云深厚的技术积累,更基于对客户需求的敏锐洞察而打造,是支撑Agent应用繁荣的基石中,最坚实的一块。