腾讯“钛螺丝”战略：具身智能的另一种可能

在2025年世界人工智能大会（WAIC）上，人形机器人无疑成为了最受瞩目的焦点。各大公司纷纷展示其最新的人形机器人技术，吸引了无数目光。然而，当整个行业都将目光聚焦于人形机器人时，腾讯Robotics X实验室却选择了另一条道路——具身智能开放平台Tairos。这是一个代号为“钛螺丝”的软件平台，是腾讯在前沿探索七年后，对产业阶段、自身定位和未来路径的深度思考与战略选择。

机器人行业的“iPhone时刻”尚未到来

腾讯首席科学家、Robotics X实验室主任张正友认为，机器人行业还远未达到“iPhone时刻”，甚至可能还看不到iPhone的影子。这个判断是理解腾讯所有选择的逻辑基础。早在2018年，Robotics X实验室成立之初，行业一片荒芜，找不到成熟的机器人本体厂商合作，团队不得不从硬件到软件进行全栈自研。从多模态四足机器人Max到轮腿式机器人Ollie，再到人居环境机器人原型“小五”，这些硬件原型更多是实验室为了验证和牵引技术研发而“开的坑”，而非产品线上的商品。

2023年，大模型的浪潮让具身智能迅速走红，资本和创业者蜂拥而入，机器人硬件公司疯狂涌现。腾讯团队在走访了全国超过六十家机器人企业后发现，一个巨大的市场缺口正在显现：大量企业能将硬件本体打磨得非常出色，但在软件和智能上的投入却不足。具身智能的落地是一个极其复杂、环环相扣的系统工程，从需要巨大投入的基础模型，到效率低下、成本高昂的场景数据采集，再到缺少流程化工具的训练仿真，以及令人头疼的真机部署和升级，每一个环节都存在挑战。

市场的需求变化，让腾讯看到了新的可能性。与其过早下注某一种具体的机器人形态，不如退后一步，为所有“探索者”提供通用的“平台”和“开发工具”。这便是Tairos平台的由来。张正友反复强调“产品化”与“商业化”的区别，强调“钛螺丝”平台不是以赚钱为目的，而是一项着眼于未来的技术储备和战略投资。

null

在张正友看来，真正的智能，必须是身体与智能的紧密结合、和谐交融。机器人的“心”（智能）必须知道“身”（本体）的状态。这种“身心合一”的追求，对应他提出的一个关键技术理念——IPDE（Integrated Physical-Digital Embodiment），即“虚实集成智能体”——虚实世界和真实世界的无缝结合。机器人可以在数字世界里“想象”或“仿真”一个动作，预判其在真实世界执行的后果。如果想象的结果与真实执行的预期偏差很大，那么机器人就必须修正自己的规划。这种在虚拟中预演、在现实中修正的循环，正是实现“身心合一”的技术路径。

解构Tairos：为机器人注入“左脑、右脑和小脑”

如果说行业的共识是为机器人打造一个聪慧的“大脑”，那么Tairos的目标就是成为那个可以被灵活调用的“外脑”。它的核心设计理念是模块化与完整性。每个厂家可以选取自己想要的模块，比如感知做得很好，就不需要Tairos的感知模块；如果规划做得不够好，那就用Tairos的规划模块。这种灵活性，大大降低了厂商的研发门槛。

这个“大脑”由三个核心模型和一套云端服务构成，分别扮演着不同的角色。

右脑：多模态感知模型——让机器人看懂3D世界

这个模型致力于让机器人真正理解自己所处的物理环境。张正友指出，这不仅仅是拍张照片然后重建3D模型那么简单。很多3D建模是“死”的，所有东西都连在一起，但机器人需要知道，这个杯子是可以被抓取的，它是一个独立实体。Tairos的感知模型致力于构建一个可交互的、语义化的三维世界地图。

此外，它试图摆脱当前主流VLA（视觉-语言-行为）模型对海量2D图像数据的过度依赖。张正友认为，2D图像缺少3D世界的深度信息，导致数据需求量极大。从3D角度看，一个杯子只需要一个3D描述就够了，数据效率会高很多。
左脑：规划大模型——让机器人理解任务并思考

如果说感知是“看懂”，规划就是“理解”和“思考”。这个模型能让机器人理解复杂的指令，并将其拆解成一个个可执行的步骤。腾讯方面的数据显示，在复杂的长序列人机交互任务中，该模型的成功率达到了80%，超过了GPT-4o等领先的闭源系统。

张正友认为，仅靠文本训练的大模型在物理世界规划上存在天然缺陷。现实世界很多东西是无法用文字描述的，比如地面的花纹、摩擦力。动物没有语言，但它们依然能在3D世界里很好地生存、觅食。这说明，对物理世界的深度理解，是比语言更底层的规划基础。
小脑：感知行动联合大模型——打通“看见”到“做到”

这是最关键的闭环，负责将“思考”转化为精准、安全的物理行动。一些机器人失控的案例恰恰暴露了这一环节的脆弱，比如一个机器人被悬空吊起后疯狂乱动。张正友分析根本原因在于机器人缺乏对自身状态的感知——它不知道自己双脚已离地，没有了摩擦力，却仍在执行地面行走的动作模式，从而导致失控。

Tairos的“小脑”模型，正是要将力觉、触觉等多模态感知信息融合进来，形成对物理规律的深度理解，从而让行动更智能、更安全。

null

除了三大模型，Tairos还提供了一整套云端仿真平台和开发工具链。通过腾讯游戏级别的3D场景生成技术，开发者可以在云端高保真环境中一键验证算法，解决传统仿真工具部署复杂、场景单一的痛点。

超越人形热：探索人机共存的更优形态

在WAIC论坛现场，搭载了Tairos平台的宇树G1机器人与张正友的互动，成为了平台能力最直观的证明。当张正友说“到我身边来”时，机器人自主规划路径并准确地停在他身旁；当被问及“讲台上有什么”时，它能清晰地回答“一个电脑，一束花，两个麦克风”。整个过程全部由算法驱动，没有任何人为遥控。由于是实时演算，机器人每天的回答和表现都可能不一样，充满了算法带来的“惊喜”。

尽管人形机器人是当下的绝对主角，但张正友对此却保持着审慎和开放的态度。他认为，过早地将终极形态锁定在“人形”上，可能会限制行业的想象力。

他给出了三个理由：

效率问题：人类的进化形态是为了适应数百万年前的复杂自然环境，但在现代人居的平坦环境中，双足行走的效率并不高。这正是腾讯早期探索“轮腿一体”机器人Max和Ollie的原因，他们追求的是效率，而非单纯的仿生。
想象力限制：以人为蓝本，会不自觉地限制技术潜力的发挥。“人不可能进化出一个屏幕，”他举例道，“但机器人可以。通过屏幕，信息传递速度可以比语音快几倍，为什么不利用这些现代技术呢？”
本体探索仍需过程：什么才是最适合人居环境的机器人形态？这依然是一个开放性问题。因此，Tairos平台的设计是本体无关的，无论是双足、四足还是机械臂，都可以接入并获得其赋能。

对于具身智能的未来，张正友判断将在五个方向上持续发展，并将其总结为“IDEAS”框架：

虚实集成世界 (IPhD): 数字世界与真实世界的深度融合与相互影响。
技术门槛降低 (Democratization): 交互方式的演进使得人人都能轻松与机器打交道。
智能演进 (Evolving intelligence): AI、本体、环境一体化互动，加速产业创新。
智能体化 (Agentization): AI从被动系统演进到主动交互的智能体，并可能涌现集体智能。
感知拓展 (Sensing): 感知技术从单一视觉向视觉、触觉、力觉等多模态融合。

虽然不像一些初创公司那样乐观，张正友也对既定方向充满信心。他表示，实验室的技术，特别是机器人的感知、规划和行动能力，发展到足够成熟的水平，从而能够支撑起像“养老”这样极具挑战性的、需要与人进行安全复杂交互的场景应用。而腾讯的角色，就是在这一历史进程中，保持足够的耐心和战略定力，通过开放自身积累七年的核心能力，为整个行业铺好路、拧紧“螺丝”，助力所有同行者一起，更快地抵达那个“iPhone时刻”。

总的来说，腾讯在具身智能领域的布局，并非盲目追随人形机器人的潮流，而是立足于对行业发展阶段的深刻理解，以及对自身技术优势的清晰认知。通过打造开放的Tairos平台，腾讯希望能够赋能整个机器人产业，加速具身智能的落地应用，最终实现人与机器的和谐共存。

腾讯的这一战略选择，不仅体现了其技术实力，更展现了其作为行业领导者的责任和担当。在具身智能的未来发展中，腾讯有望扮演更加重要的角色，推动整个行业迈向新的高度。未来，随着技术的不断进步和应用场景的不断拓展，我们有理由相信，具身智能将为人类社会带来更加美好的未来。

此外，腾讯在具身智能领域的探索也为其他科技企业提供了有益的借鉴。在追逐技术热点的同时，更应该深入思考行业的本质和未来的发展方向，找准自身的定位和优势，才能在激烈的市场竞争中脱颖而出。腾讯的“钛螺丝”战略，或许将成为具身智能领域的一颗闪耀的新星，引领行业走向更加成熟和繁荣的未来。在人机协作的新时代，腾讯正以其独特的视角和坚定的步伐，为我们描绘着一幅充满希望的蓝图。

随着人工智能技术的不断发展，具身智能的应用场景将越来越广泛。除了养老服务之外，具身智能还可以在医疗、教育、娱乐等领域发挥重要作用。例如，在医疗领域，具身智能可以辅助医生进行手术，提高手术的精度和效率；在教育领域，具身智能可以作为学生的学习伙伴，提供个性化的学习指导；在娱乐领域，具身智能可以为人们带来更加丰富多彩的娱乐体验。可以预见，具身智能将成为未来社会发展的重要驱动力。

当然，具身智能的发展也面临着一些挑战。例如，如何保证机器人的安全性和可靠性，如何保护用户的隐私和数据安全，如何解决机器人与人类之间的伦理问题等等。这些问题需要政府、企业、学界共同努力，才能找到合适的解决方案。只有在解决这些挑战之后，具身智能才能真正走进人们的生活，为人类创造更大的价值。腾讯在具身智能领域的积极探索，无疑为解决这些挑战提供了新的思路和方法。我们期待着腾讯在未来能够继续发挥其技术优势，为具身智能的发展做出更大的贡献。