字节跳动GR-3:VLA通用机器人模型,突破操作瓶颈

2

在人工智能领域,通用机器人一直是研究者们追求的终极目标。近日,字节跳动Seed团队发布了其最新的Vision-Language-Action模型(VLA)——GR-3,这一模型在机器人操作方面展现出了前所未有的能力,标志着通用机器人“大脑”的研发取得了重要进展。GR-3不仅能够理解包含抽象概念的语言指令,还能够精确地操作柔性物体,并且具备快速适应新任务、识别新物体的泛化能力。这一突破性的成果,无疑为机器人技术的发展注入了新的活力。

长期以来,传统的机器人操作模型严重依赖于大量的机器人轨迹数据进行训练。这种方式不仅训练成本高昂,而且在面对新任务时,效率也十分低下。为了解决这一难题,GR-3采用了全新的方法,仅需少量的人类数据即可实现高效的微调。其核心在于采用了Mixture-of-Transformers(MoT)网络结构,这一结构巧妙地将视觉-语言模块与动作生成模块整合为一个拥有40亿参数的端到端模型。在动作生成方面,GR-3采用了Diffusion Transformer(DiT)结合Flow-Matching技术,能够生成更加流畅自然的动作。此外,模型还引入了归一化的RMSNorm设计,从而显著增强了其在动态指令下的跟随能力。得益于这一创新性的结构,GR-3能够像人类一样,直接根据摄像头捕捉到的画面和接收到的语言指令,规划出一系列连续的动作。例如,当接收到“收拾餐桌”的指令后,GR-3能够自动完成“打包剩菜→收拾餐具→倒垃圾”的整个流程。

微信截图_20250722140449.png

在训练数据方面,GR-3也突破了传统模型的局限,采用了三合一的数据训练方法,从而实现了能力的飞跃。首先,GR-3利用遥操作机器人收集高质量的真机数据,确保模型具备扎实的基础操作能力。其次,通过用户授权的VR设备,采集人类的轨迹数据,使得新任务的学习效率提升了近一倍(450条/小时 vs 传统250条/小时)。最后,GR-3还融合了公开可用的图文数据,从而让模型能够理解“大”“小”“左右”等抽象概念,并且能够识别未曾见过的物体的特征。这种多样性的数据融合策略,使得GR-3在未见过的物体抓取任务中,成功率较基准模型提升了17.8%,并且仅需10条人类轨迹数据,即可将新物体的操作成功率从60%提升至80%以上。

为了全面验证GR-3模型的性能,字节跳动Seed团队在通用拾取放置、长程餐桌清理、柔性衣物操作这三大任务中展开了系统性的测试。在通用拾取放置任务中,GR-3在训练过的场景里,指令遵循率和成功率分别达到了98.1%和96.3%。更令人惊叹的是,在全新的环境(如卧室书桌、超市柜台等)中,GR-3的性能几乎没有衰减,并且能够精准地处理“把雪碧旁边的可乐放进盘子”等涉及空间关系的复杂指令。在长程餐桌清理任务中,GR-3能够自主完成多个步骤的操作,平均完成度超过95%,并且能够严格地跟随分步指令。即使面对无效的指令,GR-3也能够准确地判断出不动作。在柔性衣物操作测试中,GR-3在挂衣服任务中的完成度达到了86.7%。即使面对短袖等未曾见过的衣物款式,或者衣物摆放混乱的状态,GR-3依然能够稳定地完成任务。

除了在算法上的突破,GR-3与硬件的协同创新也是其另一大亮点。字节跳动Seed团队专门为GR-3研发了一款通用双臂移动机器人——ByteMini。这款机器人配备了22个全身自由度与独特的手腕球角设计,结合全身运动控制(WBC)系统,实现了在狭小空间内的精细操作与平滑轨迹生成。例如,在抓取纸杯时,ByteMini能够自动调整力度,避免将纸杯捏碎。其机械臂可以像人类的手腕一样灵活转动。此外,ByteMini还采用了多摄像头布局(2个手腕摄像头用于观察细节,头部摄像头用于观察全局),从而确保了“眼观六路”的感知能力。

尽管GR-3在泛化性和操作精度上已经超越了业界此前可测试的VLA头部模型π0,但字节跳动Seed团队并没有止步于此。他们计划通过扩大模型规模、增加训练数据量(如更多物体的视觉语言数据、复杂任务机器人数据)等方式,进一步提升GR-3的泛化能力。同时,团队还将引入强化学习(RL)方法,以突破模仿学习的局限,使得机器人在遇到物体滑落等突发情况时,能够自主调整策略,增强抗干扰能力。

字节跳动Seed团队表示,GR-3的研发旨在解决传统机器人“听不懂抽象指令”、“不适应环境变化”、“做不好长程任务”这三大瓶颈。未来,团队将持续探索大模型与机器人技术的深度融合,推动通用机器人“大脑”走进日常生活,成为帮助人类处理各类事务的智能助手。GR-3的问世,不仅为机器人学习领域提供了一种新的范式,更让“机器人全能助手”的愿景更近了一步。这一突破性的研究成果,无疑将对机器人产业的发展产生深远的影响,引领我们走向一个更加智能化的未来。