智谱AutoGLM 2.0:云端分身如何重塑AI Agent新范式?

1

智谱AutoGLM 2.0:云端分身如何重塑AI Agent新范式?

随着人工智能技术的飞速发展,AI Agent(智能体)正逐渐成为连接数字世界与物理世界的关键桥梁。然而,早期Agent在用户体验上面临诸多挑战,尤其是“抢占屏幕”的工作模式,极大地限制了其效能。近日,智谱公司发布了其ToC产品AutoGLM 2.0版本,通过引入“云端原生”架构,有望彻底改变人机协作的固有模式,开启手机Agent的“马努斯时刻”。

AI Agent变革

从“屏幕独占”到“云端并行”:核心痛点与创新突破

在AutoGLM的初代版本以及市场上的其他类似尝试中,AI执行任务时,其操作会实时投射到用户的物理屏幕上。这种“抢屏”机制带来了显而易见的弊端:

  1. 效率瓶颈:当AI进行任务时,用户只能被动等待,无法同时进行其他操作。这种互斥关系使得AI带来的效率提升效果有限,难以实现生产力的几何级增长。
  2. 任务中断风险:手机锁屏、网络波动、应用切换等日常用户行为都可能随时中断Agent的长时间任务流。AI难以在用户非专注时段(如夜间或休闲时)持续工作,其潜在价值大打折扣。
  3. 适配性难题:安卓生态的碎片化特点,使得本地Agent的适配成本高昂。不同手机品牌、系统版本之间的差异,都会影响Agent的稳定性和兼容性。

针对上述痛点,AutoGLM 2.0提出了“云端原生”解决方案,摒弃了传统的“本地镜像”模式。它为每位用户在云端部署了一个独立的安卓运行环境(云手机)和一个Linux操作系统环境(未来将支持Windows云电脑)。这意味着,当用户下达指令时,所有的任务执行——从打开应用、跳过广告、搜索信息,到选择商品、进行操作,甚至智能使用优惠券——都完全在云端进行。用户的物理设备则完全不受影响,可以继续进行其他活动,或者直接息屏放入口袋。AI的工作与用户的本地操作实现了物理层面的完全解耦,实现了真正的互不干扰。用户只需在任务列表中查看进度,并在支付、发布等关键环节进行确认即可。

智谱产品负责人刘潇在闭门交流会上演示了这一核心体验。当他向AutoGLM下达在小红书上制作并发布介绍视频的任务时,Agent在云端高并发地搜索关键词、浏览网页、收集信息、撰写文案,并自动制作视频。与此同时,刘潇在另一台云手机上演示了点奶茶和观看短视频的任务。官方数据显示,AutoGLM目前已能操作包括抖音、小红书、美团、京东等在内的40余款高频应用。

智谱对人机协作的愿景:从“打工者”到“领导者”

智谱CEO张鹏指出,未来个人竞争力的核心将是“自身能力 + N个AI智能体”的总和。每个人都将从单纯的“打工者”转型为“领导者”,其核心能力不再是事必躬亲地执行任务,而是更侧重于“有效沟通、合理安排、精准指挥”。AutoGLM的云端架构正是这一理念的产品化体现,它让AI成为可以7x24小时并行工作的“数字员工”,打破了“AI必须在你视线内操作”的局限,使用户能够将那些耗时、重复、甚至超出自身能力范围的任务,“外包”给这个高效的云端分身。

在实际测试中,使用AutoGLM在美团小象超市购买椰子水,需要用户先接管云机登录App账号,并在支付环节手动确认。尽管AI能够智能润色需求(例如自动加上“用掉红包”),但其执行速度在某些情况下仍有提升空间。

美团购物示例

另一次测试中,指令是“在知乎热榜第一的话题下回答问题”。由于一个确认点未及时响应,任务自动重启。Agent最终执行结果是找到了热榜第一的话题,并停留在详情页,并未实际“回答”问题。这表明当前Agent对复杂指令的理解和执行仍有优化空间,或者需要更详尽的指令才能完成多步骤任务。

知乎任务界面

当指令优化为“找到知乎热榜第一的话题,并针对问题写200字的回答,写完之后直接发布”时,AutoGLM确实生成了回答内容,但受限于系统连接,最终发布仍需手动提交。其生成的回答内容如下:

这一现象深刻揭示了公共服务在精细化管理层面所面临的挑战。不可否认,瘦体型乘客的舒适度确实可能因邻座乘客的体型差异而受到影响,然而,寻求解决方案需要统筹兼顾多方需求,力求在不同群体间实现平衡。

针对此问题,建议铁路运营部门可在购票系统中增设“座位偏好”选项,赋予乘客根据自身需求进行选择的权利;同时,亦可借鉴民航业“一人多座”的服务模式,为有更高空间需求的乘客提供购买额外座位的选项。此外,列车工作人员应主动关注车厢内的此类情况,及时协调,妥善处理座位调换事宜,以优化乘客体验。

从社会层面来看,我们亟需增进相互理解,避免对大体型乘客产生不必要的偏见或歧视,共同营造一个文明和谐的乘车环境。通过持续的制度创新和技术改进,我们有望逐步在效率、公平与个体需求之间找到最佳平衡点。

鉴于问题的复杂性,其解决并非一蹴而就,需要持续的探索与实践。我们期待铁路部门未来能够推出更为科学、人性化的座位管理方案,以应对日益增长的多元化出行需求。

知乎回答草稿

知乎回答提交

驱动Agent的“3A原则”与“在线强化学习”技术基石

AutoGLM得以高效运转的背后,是其强大的模型能力、创新的训练方法论和明确的产品哲学,这些共同构成了其“大脑”。智谱团队将AutoGLM的产品哲学提炼为“3A原则”:

  1. Around-the-clock (全时在线):AI智能体必须能够24小时待命,并持续执行各项任务。无论用户身处工作、睡眠或娱乐状态,AI都应在云端持续创造价值,不受时间限制。
  2. Autonomy without interference (自运转、零干扰):亦称Asynchronous(异步),其核心在于Agent在云端设备上的独立运行。这种模式确保了AI工作不占用用户的本地屏幕和计算资源,实现了操作的完全解耦。
  3. Affinity (全域连接):Agent的能力不应局限于简单的浏览器对话框,而必须能够无缝连接手机、电脑、智能手表、AR/VR眼镜等多种智能设备与服务,真正打通数字世界与物理世界的壁垒。

这三大原则共同勾勒出AutoGLM对成熟Agent形态的定义,并指导了其当前的产品架构设计。传统Agent的训练多依赖监督微调(SFT),即通过学习人类专家的操作轨迹进行训练。然而,这种方法的缺陷在于“泛化能力差”——AI仅能模仿其已见过的操作,对于未曾遇到的新场景或界面改动,往往难以应对。

为确保Agent能在复杂多变的真实环境中(数千个并发的手机、电脑、浏览器环境)稳定高效地完成任务,AutoGLM团队采用了端到端在线强化学习的技术路线。其核心思路是,在经过少量专家数据“冷启动”后,模型被置于数千个并行的真实云环境中进行“试错”。系统不再预设每一步的具体操作指令,而是仅在任务最终成功完成时给予一个“成功”的奖励信号(Reward)。模型必须自主探索并学习出最优的决策路径,从而极大提升其环境适应性和泛化能力。

这项技术路径对工程实现提出了巨大的挑战,需要一个能够同时调度和监控数千台云电脑、云手机的庞大系统。在具体技术层面,智谱在强化学习领域取得多项突破:在电脑端,提出了API-GUI协同范式,以增强数据多样性(ComputerRL);在移动端,创新了难度自适应强化学习方法,以提升复杂任务的稳定性(MobileRL);同时通过交叉采样等机制,解决了多任务训练中的不稳定问题(AgenRL)。这些创新共同构成了AutoGLM在复杂环境下高成功率的底层保障。智谱披露,通过在线强化学习,AutoGLM的任务成功率相较于冷启动阶段提升了165%,其中超过66%的增益来源于此。

刘潇强调:“我们发现,只要能提供足够好的‘环境(Environment)’和‘奖励(Reward)’机制,现有算法几乎可以优化任何任务。瓶颈已经不在算法本身,而在于如何构建可规模化的验证和反馈环境。”这种“模型即Agent”的理念也贯穿于其底座模型设计中。GLM-4.5和GLM-4.5V从预训练阶段即针对Agent任务进行了深度优化,被命名为“Agentic Language Model”。得益于从底层开始的原生设计,AutoGLM在多项公开基准测试中表现优异,例如在评估电脑操作能力的OSWorld Benchmark中获得48.1分,超越了ChatGPT Agent和Anthropic的模型。

技术路线的先进性带来了显著的商业可行性突破——成本大幅降低。传统基于第三方大模型API构建的Agent,执行一次复杂任务(如深度研究)的成本可能高达3-5美元。AutoGLM凭借自研模型和一体化架构,将包含模型调用和虚拟机资源在内的单次任务成本压缩至约0.2美元(约合1.5元人民币)。这一成本已接近谷歌单次搜索约0.02美元的量级,为C端用户的大规模普及奠定了基础。成本的显著降低,使得Agent具备了成为“超级应用”的巨大潜力。

从“单一工具”到“生态赋能”:构建由Agent驱动的数字世界

通过为Agent提供独立的云端运行环境和基于GLM-4.5/4.5V的强大模型能力,AutoGLM的定位已超越了单一的效率工具,开始构建一个连接多设备和多服务的生态系统。

首先是产品能力的纵深拓展。除了已展示的跨应用操作,AutoGLM的云电脑未来将支持Office、Photoshop等更专业的生产力工具。此外,即将上线的“定时任务”功能,将是AI从“被动响应”转向“半主动规划”的关键一步。例如,设想AI每天早上9点自动总结未读邮件并发送摘要到微信,或者在工作日上午10点自动在多平台比价下单常喝的咖啡,这相当于拥有了一个半自动化的秘书。

其次是对硬件生态的赋能。当前,智能眼镜、Pin类设备等AI硬件普遍面临算力、续航和交互的“不可能三角”困境。在微型设备上堆叠重系统和大电池,往往导致用户体验不佳。AutoGLM提出的解决方案是让这些端侧硬件“轻量化”,仅负责感知和指令发起,而将复杂的应用操作和任务执行全部交由云端的Agent完成。在交流会上展示的创意案例充分体现了这一点:连接体重秤,当检测到用户体重超标时,自动触发云端Agent下单代餐;连接气体传感器,当检测到鞋柜中氨气/硫化氢浓度超标时,则自动下单除臭脚垫。这展示了一条完整的“物理传感器 → 云端Agent → 现实世界服务”的链路,使得Agent能够实现对物理世界的连接与操作。

智谱正通过开放API和开发者计划,积极构建“万物皆可Agent”的生态。AutoGLM已上线“移动端API申请通道”及“开发者生态共建计划”,开发者可申请将AutoGLM的云端执行能力封装进其自有硬件或软件产品中,极大地扩展了Agent的应用边界。

最后,传统互联网的流量增长受限于用户的“注意力上限”——一天只有24小时,用户使用一个App就意味着减少了使用另一个App的时间。Agent的出现创造了一种全新的流量形态:并行且由需求驱动。当用户只有一个单线程的注意力时,却可以派遣无数个并行的Agent,帮助研究旅行攻略、对比全网物价、筛选工作资料。这种由AI代理人类去使用服务的模式,可能会极大地扩充整个互联网的有效流量池。更重要的是,这种流量是带着明确“成交意图”的高质量流量,其商业价值相对更高。

从技术角度看,Agent单任务平均超过256k tokens的消耗,也对上游的推理基础设施提出了32倍于传统对话场景的需求和价值密度,预示着AI算力需求的飞跃式增长。

展望未来:AI Agent与AGI的曙光

在分享会的尾声,刘潇提出了一个关于AGI(通用人工智能)的阶段性定义,他称之为“AGI的下限”:当一个Agent能够自主且稳定地运行一整天(24小时),作为你的同事或秘书,协同完成工作与生活任务,并使你的综合效率提升超过2倍时,AGI的曙光便初现。AutoGLM的此次进化,虽然距离这个“下限”尚有距离,仍处于早期形态,对指令的理解和执行仍有待提升,也存在一些需要修复的错误。但通过构建“云端分身”这一核心架构,它无疑正在为Agent实现“独立行走”铺平道路。

从同步操作转变为异步委托,这标志着人机协作范式转变的开始。未来的个人竞争力可能将不再仅仅是自身能力的体现,而是“自身能力+N个AI智能体”的模式。用户通过简洁的指令,即可让多个AI智能体并行完成复杂的任务,从而从根本上改变个人处理日常事务和工作的方式。更理想化的未来,或许只需动动嘴,无数个数字分身便能为你打理数字世界的方方面面,一个由Agent驱动的并行数字新纪元正悄然展开。