具身智能的加速狂飙:自变量机器人如何凭借10亿融资与开源大模型重塑未来?

1

具身智能新格局:10亿融资与多元资本的深度战略布局

具身智能领域正迎来前所未有的关注与资本热潮。近日,自变量机器人宣布完成近10亿元A+轮融资,此轮融资不仅规模庞大,更值得注意的是其资本结构的多元化与战略性。阿里云、国科投资作为领投方,联合国开金融、红杉中国、渶策资本等重量级投资机构,加上老股东美团战投的超额跟投以及联想之星、君联资本的持续追投,共同构筑了一个涵盖互联网战投、大美元基金与大国资的投资矩阵。这种罕见的“多元资本聚合”并非盲目逐热,而是对具身智能产业未来演进方向的深度战略押注,尤其凸显了对自变量机器人技术壁垒与商业化潜力的精准研判。

以领投方阿里云为例,其作为国内少数拥有AI大模型底层能力并深度链接产业场景的云厂商,此前在具身智能领域一直持谨慎观望态度。此次选择自变量机器人作为赛道“首投标的”,不仅是对其硬实力的认可,更是对具身智能产业价值“分水岭”的精准把握。这标志着具身智能已从早期的技术探索阶段,迈入了以“大脑”能力为核心的“脑力角逐”阶段,即如何从“勉强能用”进化到“通用好用”,而金字塔尖的“大脑”无疑决定了具身智能能力的上限。

突破“三重限定”:具身智能如何理解物理世界“潜台词”

当前具身智能大规模落地面临的核心挑战,在于“大脑”能力不足导致的“三重限定”:场景限定于预设的标准化环境,动作限定于固定轨迹的机械执行,任务限定于单一指令的简单响应。这使得机器人在真实物理世界的复杂性面前显得捉襟见底,难以满足产业对“实时响应”的核心诉求。

这种供需落差的关键在于,大部分“大脑”仅能实现“表层物理世界理解”,即识别物体形态与空间位置,却无法“读懂”物理世界的“潜台词”——深层语义理解与复杂推理能力的缺失。这正是自变量机器人率先实现端到端具身思维链推理框架所填补的产业空白。他们的“WALL-A”系列VLA(Vision-Language-Action)操作大模型,构建了一个统一的认知与行动框架,能够同时处理感知、推理和行动,直接进行跨模态的因果推理和行动决策。这使得机器人能够在真实物理世界中,像人类一样进行思考与工作,极大地提升了机器人在复杂、动态环境中适应与执行任务的能力。

自变量的具身思维链推理框架,基于多模态输入进行深度推理并生成多模态输出,形成模型自主决策、执行、探索和反思的完整闭环。这种机制让模型能够将语言理解、视觉感知与动作执行紧密结合,形成更接近人类思维的推理过程,从而成功突破了多步骤长序列任务的瓶颈。值得一提的是,据了解,自变量机器人已在部分完全未训练过的新任务类型中展现出零样本泛化能力,这对其商业化落地及应用拓展具有里程碑式的意义。

告别“重复造轮子”:中国具身智能的“GPT时刻”与真开源之路

当前具身智能产业正陷入一种“期待与现实错位”的怪象:外部市场热切期待“GPT时刻”的降临,认为技术拐点将迅速激活万亿级产业空间;而产业内部却深陷“重复造轮子”的低效循环。企业各自为战,在底层算法框架、基础感知模块、运动控制逻辑上难以形成协同突破,导致技术落地进度远滞后于市场预期,这已成为行业隐性痛点。

要打破这一僵局,“开源”无疑是最关键的破局抓手。然而,并非所有“开源”都能承担产业破壁的重任。业内长期存在“真开源”与“假开源”的本质分野。部分企业的“开源”仅开放表层代码片段或阉割版模型,核心训练框架、预训练权重、关键参数仍处于封闭状态,开发者难以基于此进行深度二次开发;或附加严苛的商用授权限制,无法真正形成技术共创生态。

“真开源”的核心在于,它能让开发者从“直接使用”走向“迭代优化”,最终实现“场景创新”,从而共同建设并共享技术价值。在融资落锤官宣之际,自变量机器人在毫无预告的情况下,同步开源了其大规模真实数据训练的开源具身基础模型WALL-OSS。此次开源的彻底性令人瞩目,它提供了一整套完整可复现的具身大模型方案,包括预训练模型权重、训练代码、数据集接口,甚至还附带了详细部署文档,开发者可以在自己的机器人上直接跑通闭环流程。相较之下,即便是具身领域在WALL-OSS之前唯一可用的开源模型Pi0,也未曾开源其推理及训练代码,而更多模型则停留在论文发表或小数据量训练阶段。这无疑为行业注入了强大的技术共享动力。

WALL-OSS的技术亮点在于其自采大规模真机数据,确保了多样性场景及任务的高质量数据;在模型架构上,创新性设计了“共享注意力+专家分流(FFN)”架构;在训练方式上,首创了“先离散、后连续、再联合”的多阶段训练范式;统一跨层级思维链实现了跨层级抽象层面的前向任意映射,模型能够在单一可微分框架内无缝切换高层决策与底层执行。具身智能的未来图景

自变量机器人通过不断突破技术卡点,使得WALL-OSS具备了强大的泛化性和推理能力、良好的因果推理、空间理解和反思能力,在长程操作任务方面表现优于其他基础模型。据自变量的评测数据,在严格的ID(分布内)和OOD(分布外)评测中,WALL-OSS均展现出卓越性能:例如在指令描述、动作动词、物体方位等发生变化的OOD场景下,WALL-OSS依然保持高成功率和指令遵循度;在需要细分指令的长程任务上,WALL-OSS显著优于扁平化策略的基线模型(如π0-flat);在需要CoT(Chain-of-Thought)的推理类任务上,WALL-OSS同时优于π0-flat和pi-gpt-prompt等强基线;在空间VQA、定位和场景描述等多模态基准测试中,WALL-OSS表现出色,成功保留并强化了VLM(Vision-Language Model)的核心能力。

通过真开源,自变量机器人将自身的技术优势转化为产业协同动能,加速具身智能从“技术单点突破”向“产业工程化落地”的关键跃迁,为行业真正迎来“GPT时刻”筑牢了坚实根基。正因如此,行业内甚至流传着“硬件看宇树,大脑看自变量”的说法,这无疑是对自变量机器人在具身智能“大脑”领域领导地位的高度认可。

AI开始掌握硬件的定义权:软硬一体的未来之路

随着具身智能在物理世界展现出“能力涌现”,一个新的问题也随之浮现:现有的硬件是否还适配于“进化后”的大脑?在自变量机器人看来,AI的发展不仅带动了软件水平的跃升,更在一定程度上重塑了硬件性能的发展走向。换言之,硬件是否适配,机器人的“大脑”或许比人类更懂。

单纯地只做大模型或是只做硬件,未来或许很快就会触碰到天花板。即便商业化能力强劲如宇树,也面临着“大脑”缺位的争议。自变量机器人始终坚持软硬一体的发展策略,并打造了“模型原生”的本体结构。今年新发布的“量子2号”机器人,正是这种“模型原生”硬件的典范。它的五指灵巧手采用仿生结构设计,单手拥有20个自由度,能感知细微的压力变化。基于臂手一体化外骨骼技术,自变量首创行业领先的“仿人机械臂+高自由度灵巧手”一体化全身遥操方案。量子2号不仅能采集高质量数据反哺模型训练,也将与自研模型深度融合,真正进入到现实场景中落地应用。

在不到半年时间内,自变量机器人已实现了机器人本体整机、高自由度灵巧手、外骨骼遥操数采设备等全栈自研,这体现了其在硬件创新与整合上的强大执行力与战略远见。

技术快进与资本同频:自变量机器人的商业化定力

无论是近十亿融资的加持,还是开源基础模型,都再次印证了自变量机器人“加速度”发展的鲜明特征。其技术迭代的轨迹清晰可见:

  • 2024年3月:成立仅3个月,推出国内首款以具身智能基础大模型为核心的复杂操作系统。
  • 时隔3个月后:该模型在特定任务中显现出少样本学习与自发跨任务迁移能力。
  • 同年10月:进一步研发出当时参数规模领先的具身智能通用操作大模型Great Wall系列(GW)之WALL-A,公开的多组操作动作精度达世界一流水准。
  • 2024年11月:模型展现出长序列训推能力和泛化性,并首次展现出零样本泛化能力;鲁棒性、复杂任务成功率优势显著。同时在数据质量控制与数据收集效率方面达到世界领先水平。
  • 步入2025年:在语义导航等方面取得突破。4月,在具身思维链技术方面展现出强大优势,WALL-A模型在更多未接触过的新任务场景中展现出零样本泛化能力。

硬件侧,成立仅两年的自变量机器人,已基于自研大模型搭建起“轮式双臂机器人+轮式人形机器人+灵巧手”的本体产品矩阵,展现了其在软硬结合领域的全面布局与快速落地能力。

在技术与资本双轮驱动的背后,自变量机器人始终保持着清晰的商业化定力。其在商业化落地场景选择上,坚定甄别并选择具有真实数据价值与商业价值的场景,规避短期爆发的“伪需求”。目前,自变量的机器人已与头部服务业、工业客户达成深度合作,在多场景中投入使用。未来,自变量也将与客户围绕模型和硬件共建开放生态,共同推动具身智能的进一步发展。

从2023年至今,国内具身智能企业百花齐放,商业模式也日趋多元。然而,在各类公司追逐落地场景、冲刺营收的同时,行业内部也持续反思客户价值是否可持续、技术是否能有效迭代。自变量机器人通过技术快进与多元化资本同时下注基础模型及技术全栈的公司,无疑为行业提供了期待已久的答案,指明了具身智能产业未来健康发展的方向。