在2025年的世界人工智能大会(WAIC)上,人形机器人无疑是最受瞩目的焦点。各大科技公司纷纷展示其最新的人形机器人技术,这些机器人越来越像人,吸引了无数目光。然而,腾讯Robotics X实验室却选择了一条不同的道路——具身智能开放平台Tairos,一个代号为“钛螺丝”的软件平台。这个平台是腾讯在前沿探索七年后,对产业阶段、自身定位和未来路径的深度思考与战略选择。
人类对机械智能体的渴望由来已久。早在古希腊神话中,工匠之神打造的青铜巨人Talos就已具备自主意识,被视为“最早的安保机器人”。腾讯首席科学家张正友用这个故事作为演讲的开场,强调人类对机械智能体的渴望从未停止。
腾讯的这一选择,源于对机器人行业发展阶段的深刻理解。张正友认为,机器人行业尚未迎来“iPhone时刻”,甚至还处于“大哥大”时代。这个判断是理解腾讯所有选择的逻辑基础。
在2018年,Robotics X实验室成立之初,行业一片荒芜,难以找到成熟的机器人本体厂商合作。团队不得不从硬件到软件进行全栈自研。多模态四足机器人Max、轮腿式机器人Ollie、人居环境机器人原型“小五”等硬件原型,更多是为了验证和牵引技术研发而“开的坑”,是研究载体而非产品。
2023年,大模型的浪潮推动具身智能走向公众视野,资本和创业者涌入,机器人硬件公司如雨后春笋般出现。腾讯团队在走访了全国超过六十家机器人企业后发现,市场存在巨大缺口:许多企业能将硬件本体打磨得非常出色,但在软件和智能上的投入不足。
具身智能的落地是一个极其复杂的系统工程,涉及基础模型、场景数据采集、训练仿真、真机部署和升级等多个环节。每个环节都存在不少挑战。
市场的需求变化让腾讯看到了新的可能性。既然行业还处于早期阶段,探索各种可能的硬件形态是所有玩家的必修课。与其过早下注某一种具体的机器人形态,不如退后一步,为所有“探索者”提供通用的“平台”和“开发工具”。
Tairos平台应运而生。张正友反复强调“产品化”与“商业化”的区别,表示“钛螺丝”平台不以赚钱为目的,而是一项着眼于未来的技术储备和战略投资。实验室成立七年来一直不以收入为目标。
在张正友看来,真正的智能是身体与智能的紧密结合。机器人的“心”(智能)必须知道“身”(本体)的状态。这种“身心合一”的追求,对应他提出的关键技术理念——IPDE(Integrated Physical-Digital Embodiment),即“虚实集成智能体”,实现虚实世界的无缝结合。机器人可以在数字世界里“想象”或“仿真”一个动作,预判其在真实世界执行的后果。如果想象的结果与真实执行的预期偏差很大,机器人就必须修正自己的规划。这种在虚拟中预演、在现实中修正的循环,正是实现“身心合一”的技术路径。
张正友的哲学思考并非一时兴起,而是长期个人修行的沉淀。他提到自己正在第四遍翻译《道德经》,每次翻译都有不同的启发。现在,时机成熟了,可以将这些前沿的科研成果变成一个可以赋能行业的标准化产品。
如果说行业的共识是为机器人打造一个聪慧的“大脑”,那么Tairos的目标就是成为那个可以被灵活调用的“外脑”。其核心设计理念是模块化与完整性。每个厂家可以选取自己想要的模块。例如,如果感知做得很好,就不需要Tairos的感知模块;如果规划做得不够好,就可以使用Tairos的规划模块。这种灵活性大大降低了厂商的研发门槛。
这个“大脑”由三个核心模型和一套云端服务构成,分别扮演着不同的角色。
右脑:多模态感知模型
该模型致力于让机器人真正理解自己所处的物理环境,不仅仅是拍张照片然后重建3D模型。张正友指出,很多3D建模是“死”的,所有东西都连在一起。但机器人需要知道,杯子是可以被抓取的,它是一个独立实体。Tairos的感知模型致力于构建一个可交互的、语义化的三维世界地图。
此外,该模型试图摆脱当前主流VLA(视觉-语言-行为)模型对海量2D图像数据的过度依赖。张正友认为,2D图像缺少3D世界的深度信息,导致数据需求量极大。从3D角度看,一个杯子只需要一个3D描述就够了,数据效率会高很多。
左脑:规划大模型
如果说感知是“看懂”,规划就是“理解”和“思考”。这个模型能让机器人理解复杂的指令,并将其拆解成一个个可执行的步骤。
腾讯的数据显示,在复杂的长序列人机交互任务中,该模型的成功率达到了80%,超过了GPT-4o等领先的闭源系统。张正友认为,仅靠文本训练的大模型在物理世界规划上存在天然缺陷。现实世界很多东西无法用文字描述,例如地面的花纹、摩擦力。动物没有语言,但它们依然能在3D世界里很好地生存、觅食。这说明,对物理世界的深度理解是比语言更底层的规划基础。
小脑:感知行动联合大模型
这是最关键的闭环,负责将“思考”转化为精准、安全的物理行动。近来,一些机器人失控的案例暴露了这一环节的脆弱。例如,一个机器人被悬空吊起后疯狂乱动。张正友分析,根本原因在于机器人缺乏对自身状态的感知,它不知道自己双脚已离地,没有了摩擦力,却仍在执行地面行走的动作模式,从而导致失控。
Tairos的“小脑”模型,正是要将力觉、触觉等多模态感知信息融合进来,形成对物理规律的深度理解,从而让行动更智能、更安全。
除了三大模型,Tairos还提供了一整套云端仿真平台和开发工具链。通过游戏级别的3D场景生成技术,开发者可以在云端高保真环境中一键验证算法,解决传统仿真工具部署复杂、场景单一的痛点。
尽管人形机器人是当下的绝对主角,张正友对此却保持着审慎和开放的态度。他认为,过早地将终极形态锁定在“人形”上,可能会限制行业的想象力。原因有三:
- 效率问题: 人类的进化形态是为了适应数百万年前的复杂自然环境,但在现代人居的平坦环境中,双足行走的效率并不高。这正是腾讯早期探索“轮腿一体”机器人Max和Ollie的原因,他们追求的是效率,而非单纯的仿生。
- 想象力限制: 以人为蓝本,会不自觉地限制技术潜力的发挥。人不可能进化出一个屏幕,但机器人可以。通过屏幕,信息传递速度可以比语音快几倍,为什么不利用这些现代技术呢?
- 本体探索仍需过程: 什么才是最适合人居环境的机器人形态?这依然是一个开放性问题。因此,Tairos平台的设计是本体无关的,无论是双足、四足还是机械臂,都可以接入并获得其赋能。
对于具身智能的未来,张正友判断将在五个方向上持续发展,并将其总结为“IDEAS”框架:
- 虚实集成世界 (IPhD): 数字世界与真实世界的深度融合与相互影响。
- 技术门槛降低 (Democratization): 交互方式的演进使得人人都能轻松与机器打交道。
- 智能演进 (Evolving intelligence): AI、本体、环境一体化互动,加速产业创新。
- 智能体化 (Agentization): AI从被动系统演进到主动交互的智能体,并可能涌现集体智能。
- 感知拓展 (Sensing): 感知技术从单一视觉向视觉、触觉、力觉等多模态融合。
虽然不像一些初创公司那样乐观,张正友也对既定方向充满信心。“我当时规划了10年的时间,现在7年过去了,我觉得可能再有三年会差不多,”他对未来给出了自己的时间表——让实验室的技术,特别是机器人的感知、规划和行动能力,发展到足够成熟的水平,从而能够支撑起像“养老”这样极具挑战性的、需要与人进行安全复杂交互的场景应用。
至于当前具身智能的“过热”,在他看来,反而是一件好事。“参与的人越来越多,这行业发展才会越来越快。”而腾讯的角色,就是在这一历史进程中,保持足够的耐心和战略定力,通过开放自身积累七年的核心能力,为整个行业铺好路、拧紧“螺丝”,助力所有同行者一起,更快地抵达那个“iPhone时刻”。