在麻省理工学院计算机科学与人工智能实验室(CSAIL)的最新研究中,一种名为神经雅可比场(Neural Jacobian Fields, NJF)的创新系统正在重新定义机器人控制的未来。该系统由CSAIL的研究人员开发,能够仅通过单一摄像头学习控制各种机器人,无需其他任何传感器。这项技术不仅降低了机器人技术的门槛,还为机器人带来了前所未有的灵活性和自主性。
传统的机器人控制系统依赖于精确的数学模型和复杂的传感器阵列,这使得软体机器人或形状不规则的机器人的控制变得异常困难。NJF的出现打破了这一限制,它允许机器人通过视觉观察自主学习其自身的运动方式,从而实现对自身的“身体意识”。这项研究成果已于2025年6月25日发表在《自然》杂志上。
该研究的负责人,麻省理工学院电子工程与计算机科学博士生Sizhe Lester Li指出:“这项工作标志着从编程机器人到教导机器人的转变。未来,我们设想只需向机器人展示要做什么,它就能自主学习如何实现目标。” 这种理念的转变,源于对机器人技术核心问题的重新审视:阻碍机器人技术发展的关键并非硬件,而是控制能力。通过让机器人自主学习其内部模型,NJF为机器人设计开辟了新的可能性。
传统的机器人设计往往需要在结构中嵌入传感器或进行强化,以方便建模。而NJF消除了这一限制,设计师可以自由探索非常规的、不受约束的形态,而无需担心建模或控制问题。正如Li所说:“想想你是如何学会控制手指的:你摆动、观察、适应。我们的系统也是如此,它通过尝试随机动作来了解哪些控制能够移动机器人的哪些部分。”
为了验证NJF的有效性,研究团队在多种机器人类型上进行了测试,包括气动软体机械手、刚性Allegro机械手、3D打印机器人手臂,甚至是一个没有嵌入式传感器的旋转平台。结果显示,在所有情况下,系统都仅通过视觉和随机运动学习了机器人的形状及其对控制信号的响应。
NJF的应用前景广阔。配备该系统的机器人未来有望在农业领域实现厘米级的定位精度,在建筑工地无需复杂的传感器阵列即可进行操作,或者在传统方法失效的动态环境中自主导航。
NJF的核心是一个神经网络,它捕捉了机器人身体的两个相互关联的方面:三维几何形状和对控制输入的敏感度。该系统基于神经辐射场(NeRF)技术,NeRF通过将空间坐标映射到颜色和密度值,从图像重建3D场景。NJF在此基础上进行了扩展,不仅学习了机器人的形状,还学习了雅可比场,该函数可以预测机器人身体上的任何点如何响应电机命令。
在模型训练过程中,机器人执行随机运动,同时多台摄像机记录结果。无需人工监督或事先了解机器人的结构,系统只需通过观察即可推断控制信号与运动之间的关系。训练完成后,机器人只需一个单目摄像头即可进行实时闭环控制,运行频率约为12赫兹。这使得机器人能够持续观察自身、进行规划并做出响应。与许多基于物理的软体机器人模拟器相比,NJF的速度更快,更适合实时使用,因为前者通常计算量过大。
在早期模拟中,即使是简单的2D手指和滑块也能够仅使用几个示例来学习这种映射。通过模拟特定点如何响应动作而变形或移动,NJF构建了一个密集的控制能力图。这种内部模型允许它推广机器人在整个身体上的运动,即使数据嘈杂或不完整。
Li表示:“真正有趣的是,系统能够自行确定哪些电机控制机器人的哪些部分。这不是预先编程的,而是通过学习自然产生的,就像人们发现新设备上的按钮一样。”
长期以来,机器人领域一直倾向于刚性、易于建模的机器,例如工厂中的工业手臂,因为它们的特性简化了控制。但是,该领域一直在朝着更柔软、仿生的机器人发展,这些机器人可以更灵活地适应现实世界。但这种转变的代价是,这些机器人更难建模。Vincent Sitzmann教授指出:“如今,由于成本高昂的传感器和复杂的编程,机器人技术常常遥不可及。我们开发神经雅可比场的目标是降低门槛,使机器人技术变得经济实惠、适应性强且更易于人们使用。视觉是一种具有弹性且可靠的传感器,它为机器人在混乱、非结构化环境中(从农场到建筑工地)运行打开了大门,而无需昂贵的基础设施。”
CSAIL主任Daniela Rus教授补充说:“仅凭视觉就可以提供定位和控制所需的线索,从而无需GPS、外部跟踪系统或复杂的板载传感器。这为非结构化环境中稳健、自适应的行为打开了大门,例如无人机在室内或地下导航而无需地图,移动机械手在杂乱的家庭或仓库中工作,甚至是有腿机器人在不平坦的地形上行走。通过从视觉反馈中学习,这些系统可以开发出自身运动和动力学的内部模型,从而在传统的定位方法失败的地方实现灵活的、自监督的操作。”
尽管目前NJF的训练需要多个摄像头,并且必须为每个机器人重新进行,但研究人员已经在设想一种更易于访问的版本。未来,爱好者可以使用他们的手机记录机器人的随机运动(就像您在开车前拍摄租赁汽车的视频一样),并使用该视频创建控制模型,而无需事先了解或使用特殊设备。该系统目前尚无法在不同的机器人之间进行泛化,并且缺乏力或触觉感应,从而限制了其在接触密集型任务中的有效性。但是,该团队正在探索解决这些局限性的新方法:改进泛化、处理遮挡以及扩展模型在更长的空间和时间范围内进行推理的能力。
正如Li所说:“正如人类对自己的身体如何移动和响应命令产生直观的理解一样,NJF仅通过视觉就能赋予机器人这种具身自我意识。这种理解是灵活操作和控制在现实世界环境中的基础。本质上,我们的工作反映了机器人领域更广泛的趋势:从手动编程详细模型转向通过观察和交互来教导机器人。”
这项研究汇集了Sitzmann实验室的计算机视觉和自监督学习工作,以及Rus实验室在软体机器人方面的专业知识。Li、Sitzmann和Rus与CSAIL的研究人员Annan Zhang、Boyuan Chen、Hanna Matusik和Chao Liu共同撰写了该论文。
该研究得到了Solomon Buchsbaum研究基金、麻省理工学院总统奖学金、国家科学基金会以及光州科学技术学院的支持。
[