在麻省理工学院计算机科学与人工智能实验室(CSAIL)的最新研究中,一种名为神经雅可比场(Neural Jacobian Fields, NJF)的创新系统正悄然改变着机器人控制的格局。该系统由CSAIL的研究人员开发,它颠覆了传统的机器人控制方式,不再依赖于预先设定的模型或复杂的传感器阵列,而是通过单一摄像头捕捉的视觉数据,使机器人能够自主学习并理解其身体如何响应控制指令。这一突破性的方法赋予了机器人一种前所未有的“身体自我意识”,为机器人技术开辟了新的可能性。
这一研究成果于2025年6月25日发表在《自然》杂志上,题为“通过深度网络推断雅可比场来控制多样化的机器人”。论文的第一作者,麻省理工学院电子工程与计算机科学博士生、CSAIL附属研究员李思哲(Sizhe Lester Li)表示:“这项工作标志着从编程机器人到教导机器人的转变。如今,许多机器人任务需要大量的工程设计和编码。在未来,我们设想只需向机器人展示要做什么,然后让它自主学习如何实现目标。”
控制能力的新视角
NJF的出现,源于对机器人控制核心问题的重新审视:阻碍经济高效、灵活的机器人技术发展的关键,并非硬件本身,而是控制能力。传统的机器人依赖于刚性结构和丰富的传感器,以便构建精确的数字孪生模型进行控制。然而,对于柔软、可变形或形状不规则的机器人,这些传统方法便不再适用。NJF的创新之处在于,它不再强迫机器人适应人类设定的模型,而是赋予机器人自主学习其内部模型的能力。
这种建模与硬件设计的解耦,为机器人设计开辟了广阔的空间。在软体机器人和仿生机器人领域,设计者常常为了便于建模而嵌入传感器或加固结构。NJF消除了这一限制,无需依赖板载传感器或设计调整即可实现控制。设计者可以自由探索非常规、无约束的形态,而无需担心后续的建模和控制问题。
李思哲将NJF的学习过程比作人类学习控制手指:“你摆动手指,观察结果,然后进行调整。我们的系统也是如此。它通过随机动作进行实验,并弄清楚哪些控制信号会移动机器人的哪些部分。”
广泛的适用性
NJF系统已在多种机器人类型上得到验证。研究团队测试了NJF在一款能够进行捏取和抓取的软体气动机械手、一款刚性Allegro机械手、一款3D打印的机器人手臂,甚至是一个没有嵌入式传感器的旋转平台上的性能。在所有案例中,该系统仅通过视觉和随机运动,就学会了机器人的形状以及对控制信号的响应。
研究人员认为,NJF的潜力远不止于实验室。未来,配备NJF的机器人有望在农业领域实现厘米级的定位精度,在建筑工地无需复杂的传感器阵列即可进行操作,或在传统方法失效的动态环境中导航。
技术原理
NJF的核心是一个神经网络,它捕捉了机器人身体的两个相互关联的方面:三维几何形状和对控制输入的敏感性。该系统建立在神经辐射场(NeRF)的基础上,NeRF是一种通过将空间坐标映射到颜色和密度值,从而从图像重建3D场景的技术。NJF通过学习机器人的形状以及雅可比场来扩展这种方法。雅可比场是一个函数,用于预测机器人身体上的任何点如何响应电机指令而移动。
为了训练模型,机器人执行随机运动,同时多个摄像头记录结果。无需人工干预或有关机器人结构的先验知识——系统只需通过观察即可推断控制信号和运动之间的关系。
训练完成后,机器人只需一个单目摄像头即可进行实时闭环控制,运行频率约为12赫兹。这使其能够持续观察自身,进行规划并做出响应。这种速度使NJF比许多基于物理的软机器人模拟器更具可行性,因为后者通常计算量太大,无法实时使用。
在早期的模拟中,即使是简单的2D手指和滑块也能够仅使用几个示例就学会这种映射。通过模拟特定点如何响应动作而变形或移动,NJF构建了一个密集的控制能力图。这种内部模型使其能够推广整个机器人身体的运动,即使数据嘈杂或不完整。
李思哲表示:“真正有趣的是,系统能够自行确定哪些电机控制机器人的哪些部分。这不是预先编程的——而是通过学习自然而然地出现的,就像人们发现新设备上的按钮一样。”
软体机器人的未来
数十年来,机器人技术一直青睐刚性、易于建模的机器(如工厂中常见的工业手臂),因为它们的特性简化了控制。但该领域一直在向能够更灵活地适应现实世界的软体、仿生机器人发展。然而,这些机器人更难建模。
“由于成本高昂的传感器和复杂的编程,如今的机器人技术常常遥不可及。我们开发神经雅可比场的目的是降低门槛,使机器人技术经济实惠、适应性强且更易于人们使用。视觉是一种具有弹性和可靠性的传感器,”论文的资深作者、麻省理工学院助理教授、场景表示小组负责人文森特·西茨曼(Vincent Sitzmann)表示。“它为机器人打开了大门,使其能够在混乱、非结构化的环境中(从农场到建筑工地)运行,而无需昂贵的基础设施。”
论文的共同作者、麻省理工学院电子工程与计算机科学教授、CSAIL主任丹妮拉·鲁斯(Daniela Rus)表示:“仅凭视觉即可提供定位和控制所需的线索——无需GPS、外部跟踪系统或复杂的板载传感器。这为在非结构化环境中实现稳健、自适应的行为打开了大门,例如无人机在没有地图的情况下在室内或地下导航,移动机械手在杂乱的家庭或仓库中工作,甚至是有腿机器人在不平坦的地形上行走。通过从视觉反馈中学习,这些系统可以开发出自身运动和动力学的内部模型,从而在传统定位方法失效的情况下实现灵活的自监督操作。”
尽管目前训练NJF需要多个摄像头,并且必须为每个机器人重新进行训练,但研究人员已经在设想一种更易于使用的版本。未来,爱好者可以使用手机记录机器人的随机运动(就像在开车前拍摄租赁汽车的视频一样),并使用该视频创建控制模型,而无需任何先验知识或特殊设备。
该系统尚未在不同的机器人之间实现通用化,并且缺乏力或触觉传感,这限制了其在接触密集型任务中的有效性。但研究团队正在探索解决这些局限性的新方法:提高通用性、处理遮挡,并扩展模型在更长的空间和时间范围内进行推理的能力。
李思哲总结道:“正如人类对自己的身体如何运动和响应指令产生直观的理解一样,NJF仅通过视觉就赋予了机器人这种具身自我意识。这种理解是在现实世界环境中实现灵活操作和控制的基础。我们的工作本质上反映了机器人技术领域更广泛的趋势:从手动编程详细模型转向通过观察和互动来教导机器人。”
该论文汇集了西茨曼实验室的计算机视觉和自监督学习工作,以及鲁斯实验室在软体机器人方面的专业知识。李思哲、西茨曼和鲁斯与CSAIL附属研究员张安安(Annan Zhang,2022届理学硕士,电子工程与计算机科学博士生)、陈博远(Boyuan Chen,电子工程与计算机科学博士生)、汉娜·马图西克(Hanna Matusik,机械工程本科生)和刘超(Chao Liu,麻省理工学院感知城市实验室博士后)共同撰写了该论文。
该研究得到了所罗门·布赫斯鲍姆研究基金(通过麻省理工学院研究支持委员会)、麻省理工学院总统奖学金、美国国家科学基金会和光州科学技术院的支持。