具身智能新范式:腾讯如何赋能机器人迈向“身心合一”的未来?

1

具身智能浪潮下的腾讯策略:构建“外脑”赋能未来机器人

自古以来,人类对创造能够自主行动的智能机械体便怀揣着深切的渴望。从古希腊神话中铜巨人塔罗斯的传说,到2025年世界人工智能大会(WAIC)上百台人形机器人的集体亮相,这种对机械智能的追求从未止歇。尤其是在WAIC 2025的舞台上,人形机器人以前所未有的热度吸引了全球目光,预示着机器人技术正迈向一个全新的里程碑。然而,在这股汹涌的热潮中,腾讯Robotics X实验室却选择了一条独辟蹊径的道路,其在具身智能领域的布局,展现了对行业深刻的洞察与前瞻性的战略思考。

从硬件探索到平台赋能:腾讯的七年深耕

腾讯首席科学家、Robotics X实验室主任张正友曾指出,当前的机器人行业甚至还未进入“大哥大”时代,更遑论触及“iPhone时刻”。这一判断构成了腾讯在具身智能领域所有战略选择的核心逻辑。Robotics X实验室成立于2018年,彼时机器人产业尚处于萌芽阶段,缺乏成熟的本体厂商。为了推动技术研发,实验室不得不从硬件到软件进行全栈自研,先后推出了多模态四足机器人Max、轮腿式机器人Ollie以及人居环境机器人原型“小五”。这些硬件原型并非面向市场的产品,而是作为验证和牵引前沿技术的关键载体。

然而,2023年成为行业的分水岭。大模型技术的爆发式发展使得具身智能从学术界和工业界走向大众视野,资本和创业者蜂拥而至,机器人硬件公司如雨后春笋般涌现。在深入走访了全国超过六十家机器人企业后,腾讯团队发现一个普遍存在的痛点:虽然许多企业在硬件本体打磨上表现出色,但在软件和智能层面的投入却显得力不从心。具身智能的落地是一个极其复杂的系统工程,涉及基础模型研发、高效数据采集、训练仿真、真机部署与升级等诸多环节,每个环节都充满挑战且成本高昂。

正是基于对市场需求的精准洞察,腾讯看到了新的发展机遇。既然行业尚处于早期探索阶段,各种硬件形态百花齐放,与其过早押注于某种特定的机器人形态,不如退后一步,聚焦于为所有创新者提供通用的“平台”和“开发工具”。由此,代号为“钛螺丝”的具身智能开放平台Tairos应运而生。张正友反复强调Tairos并非以盈利为目的,而是腾讯作为一项着眼于未来的技术储备和战略投资,旨在赋能整个行业,加速具身智能技术的普及与应用。

“虚实集成智能体”:实现机器人“身心合一”的关键

张正友认为,真正的智能在于身体与智能的紧密结合与和谐交融。机器人的“心”(智能)必须实时感知并理解其“身”(本体)的状态。这种对“身心合一”的追求,最终凝结成一个核心技术理念——IPDE(Integrated Physical-Digital Embodiment),即“虚实集成智能体”。这一概念强调虚拟世界与真实世界的无缝融合,使机器人能够在数字孪生环境中进行动作“想象”和“仿真”,预判其在真实世界中执行的后果。一旦虚拟预演与真实执行预期出现较大偏差,机器人便能够及时修正其规划。这种在虚拟中预演、在现实中修正的循环学习机制,正是实现机器人“身心合一”的关键路径,也体现了腾讯在具身智能领域深厚的哲学思考与技术沉淀。

一个机器人拿着一个杯子

解构Tairos:赋予机器人“左脑、右脑和小脑”

如果将为机器人打造聪慧“大脑”视为行业共识,那么Tairos的目标便是成为一个可被灵活调用的“外脑”。其核心设计理念在于模块化与完整性相结合。张正友解释说,Tairos平台中的每一个模块都可以独立选取,厂商可以根据自身研发实力按需选择,极大降低了研发门槛。

这个“大脑”由三个核心模型和一套云端服务构成,各司其职,协同作用:

  • 右脑:多模态感知模型——让机器人看懂3D世界 这个模型旨在让机器人真正理解其所处的物理环境。张正友强调,这并非简单的3D建模,而是构建一个可交互、语义化的三维世界地图,使机器人能够识别并理解独立实体,例如一个可以被抓取的杯子。此外,该模型致力于摆脱当前主流VLA(视觉-语言-行为)模型对海量2D图像数据的过度依赖,通过3D视角提升数据效率,因为一个3D描述足以涵盖一个物体的全部信息。

  • 左脑:规划大模型——让机器人理解任务并思考 感知是“看懂”,规划则是“理解”和“思考”。该模型能够让机器人理解复杂的指令,并将其高效拆解为可执行的步骤。腾讯数据显示,在复杂的长序列人机交互任务中,该模型的成功率高达80%,超越了GPT-4o等领先的闭源系统。张正友指出,仅凭文本训练的大模型在物理世界规划上存在天然缺陷,因为现实世界中许多物理规律(如地面摩擦力)难以用文字完全描述。动物虽无语言,却能在3D世界中生存觅食,这表明对物理世界的深度理解是比语言更底层的规划基础。

  • 小脑:感知行动联合大模型——打通“看见”到“做到” 这是实现闭环的关键环节,负责将“思考”转化为精准、安全的物理行动。近期一些机器人失控案例暴露出这一环节的脆弱性,根本原因在于机器人缺乏对自身状态的感知。Tairos的“小脑”模型通过融合力觉、触觉等多模态感知信息,形成对物理规律的深度理解,从而使机器人的行动更加智能、更加安全。

腾讯Robotics X的轮腿机器人Ollie

除了三大核心模型,Tairos还提供了一整套云端仿真平台和开发工具链。借助腾讯游戏级别的3D场景生成技术,开发者可以在云端高保真环境中一键验证算法,有效解决了传统仿真工具部署复杂、场景单一的痛点,显著提升了研发效率。

超越人形热潮:探索人机共存的更优形态

在WAIC论坛现场,搭载Tairos平台的宇树G1机器人与张正友的互动,直观展现了该平台的强大能力。当张正友发出“到我身边来”的指令时,机器人自主规划路径并精准停止;当被问及“讲台上有什么”时,它能清晰回答“一个电脑,一束花,两个麦克风”,整个过程完全由算法驱动,没有任何人为遥控,充满了算法带来的“惊喜”。

尽管人形机器人是当前市场的绝对焦点,张正友对此保持着审慎而开放的态度。他认为,过早地将终极形态锁定在“人形”上,可能会限制行业的想象力。他提出了三点理由:

  1. 效率问题:人类的进化形态是为了适应数百万年前的复杂自然环境,但在现代人居的平坦环境中,双足行走的效率并非最高。这正是腾讯早期探索“轮腿一体”机器人Max和Ollie的原因,他们追求的是效率而非单纯的仿生。
  2. 想象力限制:以人为蓝本,会不自觉地限制技术潜力的发挥。例如,人无法进化出屏幕,但机器人可以利用屏幕实现比语音快数倍的信息传递,为何不充分利用这些现代技术?
  3. 本体探索仍需过程:何种机器人形态最适合人居环境仍是一个开放性问题。因此,Tairos平台被设计为本体无关,无论是双足、四足还是机械臂,皆可接入并获得其赋能。

Tairos平台架构图

对于具身智能的未来,张正友判断其将在五个方向上持续发展,并将其总结为“IDEAS”框架:

  • 虚实集成世界 (IPhD): 数字世界与真实世界的深度融合与相互影响,构建智能体更广阔的感知与行动空间。
  • 技术门槛降低 (Democratization): 交互方式的演进将使得人人都能轻松与机器打交道,推动具身智能技术进入寻常百姓家。
  • 智能演进 (Evolving intelligence): AI、本体、环境一体化互动,形成正向反馈循环,加速产业创新与技术迭代。
  • 智能体化 (Agentization): AI将从被动响应系统演进为主动交互的智能体,并可能涌现出集体智能,形成更强大的智能协作网络。
  • 感知拓展 (Sensing): 感知技术将从单一视觉向视觉、触觉、力觉等多模态融合发展,使机器人对物理世界的理解更为精细与全面。

尽管张正友不像某些初创公司那样过于乐观,但他对既定方向充满信心。他规划的十年时间表,已过去了七年,他认为再有三年左右,实验室的技术,特别是机器人的感知、规划和行动能力,将发展到足以支撑“养老”等需要与人进行安全复杂交互的挑战性场景应用。他认为当前具身智能的“过热”反而是好事,因为参与者越多,行业发展速度越快。腾讯的角色,正是在这一历史进程中,保持足够的耐心与战略定力,通过开放自身七年积累的核心能力,为整个行业铺平道路,拧紧“螺丝”,助力所有同行者更快地抵达具身智能的“iPhone时刻”。