在麻省理工学院计算机科学与人工智能实验室(CSAIL)的最新研究中,一种名为神经雅可比场(Neural Jacobian Fields,NJF)的创新系统,正以其独特的视角重塑机器人控制的未来。这项技术摆脱了传统机器人对复杂传感器阵列和手动设计的依赖,仅凭单目摄像头,就能使机器人学习并掌握自身的运动方式,实现前所未有的自主性和适应性。该研究成果于2025年6月25日发表在《自然》杂志上,标志着机器人技术领域的一项重大突破。
从编程到教学:机器人控制的范式转变
这项研究的核心在于一种理念的转变:不再依赖于对机器人进行精确编程,而是通过“教导”的方式,让机器人自主学习完成任务。CSAIL的博士生、该研究的负责人李思哲(Sizhe Lester Li)指出,传统的机器人任务往往需要大量的工程设计和代码编写,而NJF的愿景是,通过展示任务示例,让机器人自主学习如何实现目标。
这种理念的转变源于对机器人技术瓶颈的深刻理解。研究人员认为,制约机器人技术发展的关键并非硬件本身,而是控制能力。传统的机器人控制依赖于精确的数学模型,即“数字孪生”,这在刚性、传感器丰富的机器人上相对容易实现。然而,对于软体、可变形或形状不规则的机器人,传统的建模方法便不再适用。NJF通过赋予机器人自主学习内部模型的能力,巧妙地避开了这一难题。
视觉驱动的自主学习:NJF的核心机制
NJF的核心是一个神经网络,它能够捕捉机器人身体的两个关键方面:三维几何形状以及对控制输入的敏感度。该系统以神经辐射场(NeRF)为基础,NeRF是一种通过将空间坐标映射到颜色和密度值来重建3D场景的技术。NJF在此基础上进行了扩展,不仅学习机器人的形状,还学习雅可比场,该函数能够预测机器人身体上任何一点如何响应电机指令。
为了训练模型,机器人会执行随机运动,同时多台摄像机记录下运动的结果。整个过程无需人工干预或事先了解机器人的结构,系统只需通过观察即可推断出控制信号和运动之间的关系。训练完成后,机器人仅需一台单目摄像头即可实现实时闭环控制,运行频率约为12赫兹。这使得机器人能够持续观察自身状态,进行规划并做出响应。相比于传统的基于物理的模拟器,NJF更适用于软体机器人,因为后者通常计算量过大,难以实现实时控制。
在早期的模拟中,即使是简单的2D手指和滑块也能够通过少量示例学习这种映射关系。通过对特定点如何响应动作而变形或移动进行建模,NJF构建了一个密集的“可控性”地图。这种内部模型使得机器人能够推广运动,即使数据存在噪声或不完整。
李思哲表示,该系统最有趣的地方在于,它能够自主判断哪些电机控制机器人的哪些部分。这种能力并非通过编程实现,而是通过学习自然涌现,就像人们发现新设备上的按钮一样。
拓展机器人设计的边界:软体机器人时代的到来
NJF的出现,打破了建模和硬件设计之间的强耦合关系,为机器人设计开辟了广阔的空间。在软体和仿生机器人领域,设计者常常为了便于建模而嵌入传感器或加固结构。NJF消除了这一限制,无需对机器人进行额外的设计调整即可实现控制。设计者可以更加自由地探索非传统的、无约束的形态,而无需担心后续的建模和控制问题。
正如李思哲所说,人们学习控制手指的方式是:摆动、观察、适应。NJF系统也是如此,它通过尝试随机动作,并找出哪些控制能够移动机器人的哪些部分。
该系统已在多种类型的机器人上得到验证,包括气动软体手、刚性Allegro手、3D打印机械臂,甚至是一个没有嵌入式传感器的旋转平台。在每种情况下,系统都能够仅通过视觉和随机运动来学习机器人的形状以及它如何响应控制信号。
研究人员认为,NJF的潜力远不止于实验室。未来,配备NJF的机器人有望在农业领域执行厘米级的精确定位任务,在建筑工地无需复杂的传感器阵列即可操作,或在传统方法失效的动态环境中导航。
软体机器人的未来:机遇与挑战
数十年来,机器人技术一直倾向于刚性、易于建模的机器,如工厂中常见的工业机械臂,因为它们的属性简化了控制。然而,该领域正朝着软体、仿生机器人发展,这些机器人能够更灵活地适应现实世界。但随之而来的问题是,这些机器人更难建模。
CSAIL场景表示小组负责人、麻省理工学院助理教授文森特·西茨曼(Vincent Sitzmann)表示,如今的机器人技术常常因昂贵的传感器和复杂的编程而难以触及。NJF的目标是降低门槛,使机器人技术更加经济、适应性更强,并为更多人所用。视觉是一种可靠的传感器,它为机器人在混乱、非结构化的环境中(如农场和建筑工地)运行打开了大门,而无需昂贵的基础设施。
麻省理工学院电气工程与计算机科学教授、CSAIL主任丹妮拉·鲁斯(Daniela Rus)补充说,仅凭视觉即可提供定位和控制所需的线索,从而无需GPS、外部跟踪系统或复杂的板载传感器。这为在非结构化环境中实现稳健、自适应的行为打开了大门,例如无人机在没有地图的室内或地下导航,移动机械手在杂乱的家庭或仓库中工作,甚至是有腿机器人在不平坦的地形上行走。通过从视觉反馈中学习,这些系统能够开发出自身运动和动力学的内部模型,从而在传统定位方法失效的情况下实现灵活的、自监督的操作。
展望未来:更易用、更智能的机器人
虽然目前的NJF训练需要多台摄像机,并且必须为每个机器人重新进行,但研究人员已经设想了一个更易于使用的版本。未来,爱好者可以使用手机记录机器人的随机运动,就像在开车前拍摄租赁汽车的视频一样,并使用这些素材创建控制模型,而无需事先了解或使用特殊设备。
目前,该系统尚不能在不同的机器人之间进行泛化,并且缺乏力或触觉感应,这限制了其在接触密集型任务中的有效性。但研究团队正在探索新的方法来解决这些局限性:提高泛化能力、处理遮挡以及扩展模型在更长的空间和时间范围内进行推理的能力。
李思哲总结说,正如人类对自己的身体如何移动和响应命令有着直观的理解一样,NJF通过视觉赋予机器人这种具身化的自我意识。这种理解是机器人在现实世界环境中进行灵活操作和控制的基础。本质上,他们的工作反映了机器人技术领域更广泛的趋势:从手动编程详细模型转向通过观察和交互来教导机器人。
这项研究汇集了西茨曼实验室的计算机视觉和自监督学习工作,以及鲁斯实验室在软体机器人方面的专业知识。李思哲、西茨曼和鲁斯与CSAIL的安南·张、陈博远、汉娜·马图西克和刘超共同撰写了论文。
该研究得到了所罗门·布赫斯鲍姆研究基金、麻省理工学院总统奖学金、国家科学基金会和光州科学技术院的支持。