云端智能体革新:AutoGLM 2.0如何重塑人机协作与数字未来?

1

AI Agent新范式:从“抢屏”到“云端分身”

近年来,人工智能(AI)在内容创作和自动化领域展现出前所未有的潜力。然而,早期的AI Agent在实际应用中常面临一个核心痛点:其操作往往需要“抢占”用户设备的前台屏幕。这意味着在AI执行任务时,用户无法同时进行其他操作,人与机器之间形成了一种互斥的“二选一”关系。这种模式极大地限制了AI带来的效率提升,使其难以实现生产力的倍增。

近期,智谱发布的AutoGLM 2.0版本,正试图通过引入“云端分身”的理念来彻底解决这一问题。AutoGLM 2.0不再要求AI在用户的物理设备上直接操作,而是为每位用户在云端部署了一个独立的云手机与云电脑环境。用户只需发出指令,AI智能体便可在云端独立、异步地执行跨应用任务,从而将人机协作范式从传统的“你盯着我干”同步模式,升级为“你忙你的,我干我的”异步并行模式。这标志着AI拥有了独立的“身体”和“工位”,一个由Agent驱动的并行数字世界正逐步开启。

“抢屏”模式的深层痛点与局限

回顾过往的AI Agent尝试,无论是AutoGLM的早期版本还是其他同类产品,其“抢屏”操作模式都带来了诸多不便与挑战,这些障碍限制了AI智能体价值的充分发挥:

  • 效率瓶颈:当AI在前台操作时,用户必须被动等待,导致整体效率提升有限。人机之间的互斥关系使得AI难以真正成为生产力的倍增器。
  • 执行中断风险:用户的日常行为,如锁屏、切换应用、网络波动等,都可能随时中断Agent执行的长任务流。这使得AI难以在用户非关注时段(如睡眠或娱乐时)持续工作,其潜在价值大打折扣。
  • 高昂的适配成本:安卓生态的高度碎片化,意味着每个手机品牌、每个系统版本都可能存在差异,本地化适配的成本居高不下,且难以保证Agent的稳定运行。

这些深层痛点共同指向了一个核心问题:AI智能体需要更独立、更灵活的运行环境,才能真正融入并赋能人类的生产与生活。

AutoGLM 2.0的云端原生解决方案

AutoGLM 2.0选择了一种“云端原生”的替代方案,彻底颠覆了传统的本地镜像模式。其核心创新在于为每个用户在云端分配了一个完整的安卓环境(云手机)和一个Linux环境(云电脑,未来将支持Windows系统)。

当用户发出“去美团找附近的奶茶店,点20杯,记得用优惠券”这样的指令时,AI智能体会在用户专属的云端手机上自动执行整个任务流。这包括:打开App、跳过广告、搜索店铺、选择商品、连续增加数量,乃至智能选用优惠券等一系列复杂操作。而用户的物理手机则完全不受影响,可以继续进行聊天、观看视频,甚至息屏放入兜中。AI的工作与用户的本地操作在物理层面上完全解耦,互不干扰。

用户只需在任务列表中轻松查看任务进度,仅在支付、发布等关键节点回来进行“确认”操作即可。这种人机协作的异步并行模式,意味着AI不再是你的“替身”,而是你专属的“数字员工”,它能在云端7x24小时不间断地为你服务。智谱的产品负责人曾演示了AutoGLM在云端高并发地完成小红书视频制作、美团点奶茶以及抖音刷视频等任务,其在云端操作高频应用的能力已超过40款。

个人竞争力的新定义:人与AI智能体的高效协同

智谱对未来人机协作关系有着深刻的洞察。其CEO张鹏提出,未来个人竞争力的核心将不再仅仅是个体自身的能力,而是“自身能力 + N 个 AI 智能体”的总和。这意味着每个人都将从传统的“执行者”角色,转变为“领导者”,其核心能力将聚焦于“会沟通、会安排任务、会指挥”AI智能体完成复杂工作。

AutoGLM的云端架构正是这一理念的产品化落地。它使AI成为一个可以全天候并行工作的“数字员工”,彻底打破了“AI必须在你眼皮底下操作”的限制。用户可以将那些耗时、重复、甚至超出自身能力范围的任务,“外包”给这个云端分身,从而将精力集中于更具战略性和创造性的工作。

然而,当前AutoGLM仍处于早期发展阶段,在使用过程中,我们也发现了一些值得思考的体验细节。例如,当尝试在美团小象超市购买椰子水时,虽然大部分操作能自动完成,但在任务发起前需要手动接管云机登录App账号,并在支付环节也需用户手动操作。此外,任务执行速度有时不如手动操作便捷,且AI会自己润色需求,如自动添加“用掉红包”等。

AutoGLM 美团购物任务

在知乎热榜回答任务的测试中,指令“在知乎热榜第一的话题下回答问题”的执行结果是找到话题并停留在话题详情页,但并未实际完成“回答”操作。

AutoGLM 知乎任务执行暂停

AutoGLM 知乎任务执行详情

当指令更新为“找到知乎热榜第一的话题,并针对问题写200字的回答,写完之后直接发布”后,AutoGLM确实生成了回答内容,但受限于系统连接,发布仍需手动提交。这反映了当前AI Agent在复杂指令理解与全链条自动化执行方面仍有提升空间,尤其是在涉及用户关键确认和多步操作的场景。

AutoGLM 生成的知乎回答

驱动Agent的核心:3A原则与在线强化学习

如果说“云手机/云电脑”是AutoGLM的全新“身体”,那么其背后强大的模型、训练方法论和产品原则,则是这具身体得以高效运转的“大脑”。智谱团队将AutoGLM的产品哲学提炼为“3A原则”:

  1. Around-the-clock(全时):AI必须能够24小时待命并持续执行任务,无论用户何时何地,AI都应在云端持续创造价值。这确保了AI智能体能够成为真正意义上的“数字员工”。
  2. Autonomy without interference(自运转、零干扰):此原则强调Agent在云端设备的独立运行,不占用用户的本地屏幕和算力。官方称之为Asynchronous(异步),是实现人机并行协作的关键。
  3. Affinity(全域连接):Agent的能力不应局限于浏览器对话框,而必须能够连接手机、电脑、智能手表、眼镜等多种设备与服务,打通数字世界与物理世界,实现真正的“万物互联”。

这三大原则共同构成了AutoGLM对一个成熟Agent形态的清晰定义,也为其当前产品架构提供了坚实的理论支撑。

在技术实现层面,为确保Agent在复杂多变的真实环境中具备强大的泛化能力和任务完成能力,AutoGLM团队摒弃了传统依赖监督微调(SFT)的方法。SFT的弊端在于泛化能力差,AI只会模仿见过的操作,对未见过的场景或界面改动往往束手无策。

AutoGLM选择了一条更具挑战性的端到端在线强化学习技术路线。其核心思想是,在经过少量专家数据进行“冷启动”后,模型会在数千个并行的真实云环境中像人类一样进行“试错”。系统不再明确告知模型“下一步该点哪里”,而只在任务最终完成时给予一个“成功”的奖励信号(Reward)。模型必须通过自我探索,找到最优的决策路径。这一过程对工程提出了巨大挑战,需要一个能够同时调度和监控数千台云电脑、云手机的庞大系统。

智谱在强化学习方面实现了多项突破:在电脑端,提出了API-GUI协同范式(ComputerRL)以提升数据多样性;在移动端,创新了难度自适应强化学习方法(MobileRL)以提升复杂任务的稳定性;并通过交叉采样等机制解决了多任务训练中的不稳定问题(AgenRL)。这些具体的技术创新共同构成了AutoGLM在复杂环境下高任务成功率的底层保障。据智谱披露,通过在线强化学习,AutoGLM的任务成功率相较于冷启动阶段提升了165%,其中超过66%的增益来源于此,有力证明了该技术路线的有效性。

成本突破与生态构建:从“工具”到“平台”

AutoGLM采用的“模型即Agent”理念,在其底座模型GLM-4.5和GLM-4.5V上得到了充分体现。这些模型从预训练阶段就开始为Agent任务进行深度优化,被誉为“Agentic Language Model”。原生设计使其在OSWorld Benchmark等电脑操作能力基准测试中表现出色,超越了现有主流模型。

技术路线的先进性带来了商业可行性上的巨大突破——成本大幅下降。传统基于第三方大模型API构建的Agent,单次复杂任务的成本可能高达3-5美元。而AutoGLM借助自研模型和一体化架构,将包含模型调用和虚拟机资源的单次任务成本压缩到约0.2美元(约1.5元人民币),已经接近谷歌单次搜索0.02美元的成本,这使得AI Agent的规模化普及成为可能,并让智谱有底气直接向所有C端用户开放AutoGLM 2.0,而无需邀请码。

AutoGLM 2.0的定位已超越单一效率工具,正在构建一个连接多设备和服务的智能生态系统:

产品能力纵深发展

除了已展示的跨应用操作,AutoGLM的云电脑未来将支持Office、Photoshop等更专业的生产力工具。同时,即将上线的“定时任务”功能,是AI从“被动响应”迈向“半主动规划”的关键一步。想象一下,“每天早上9点,自动总结老板的未读邮件并发送摘要到我微信”或“工作日上午10点,自动在多平台比价下单我常喝的咖啡”,这相当于为用户配备了一位全天候的数字秘书。

硬件生态的赋能者

当前的AI硬件,如智能眼镜、Pin类设备,普遍面临算力、续航和交互的“不可能三角”困境。在微型设备上堆叠重系统和大电池,往往导致用户体验不佳。AutoGLM提出的解决方案是让这些端侧硬件“轻量化”,只负责感知和发起指令,而将复杂的应用操作和任务执行全部交由云端的Agent完成。例如,当连接了体重秤检测到用户体重超标时,会自动触发云端Agent下单代餐;连接气体传感器检测到鞋柜异味时,则自动下单除臭脚垫。这展示了一条“物理传感器→云端Agent→现实世界服务”的完整链路,让Agent实现了对物理世界的连接和操作。

创造新的流量形态

传统互联网的流量受限于用户的“注意力上限”——一天只有24小时。而Agent创造了一种全新的流量形态:并行且由需求驱动。当用户只有一个单线程的注意力时,可以派出无数个并行的Agent,帮助研究旅行攻略、对比全网物价、筛选工作资料。这种由AI代理人类去使用服务的模式,可能会极大地扩充整个互联网的有效流量池。更重要的是,这种流量是带着明确“成交意图”的高质量流量,其商业价值相对更高。

通过开放API和开发者计划,AutoGLM正在积极邀请开发者加入生态共建,将AutoGLM的云端执行能力封装进自己的硬件或软件产品中,从而加速“万物皆可Agent”时代的到来。

迈向AGI的“下限”:人机协作的未来

智谱团队对通用人工智能(AGI)的阶段性定义,可以称之为“AGI的下限”。他们认为,当一个Agent能够自主稳定地运行一整天(24小时),作为你的同事或秘书,协同完成工作与生活任务,使你的综合效率提升超过2倍时,AGI的曙光便初现。AutoGLM的这次进化,虽然距离这个“下限”仍有距离,对指令的理解和全链条自动化仍有改进空间,但通过构建“云端分身”这一核心架构,它确实在为Agent的“独立行走”铺平道路。

从同步操作转变为异步委托,是人机协作范式的深刻转变的开始。未来的个人竞争力将不再是孤立的个体能力,而是“自身能力+N个AI智能体”的全新模式。用户通过下达指令,让多个AI智能体并行完成任务,将从根本上改变个人处理日常与工作事务的方式。一个只需动动嘴,就有无数个数字分身为你打理数字世界的未来,正在逐步展开,并引领我们走向更高效、更智能的数字生活新篇章。