MIT新突破:AI驱动的实时3D地图技术重塑机器人导航

1

在灾难救援场景中,机器人需要在复杂多变的环境中快速生成地图并确定自身位置,以寻找被困人员。传统方法往往面临处理速度慢、精度不足等问题。麻省理工学院(MIT)的研究人员最近开发了一种创新系统,结合了最新人工智能技术与经典计算机视觉方法,为解决这一难题提供了全新方案。

技术突破:快速生成复杂环境3D地图

"对于机器人完成日益复杂的任务,它们需要更复杂的世界地图表示。但同时,我们不想在实际应用中实现这些地图变得更加困难。我们已经证明,有可能在几秒钟内生成准确的3D重建,并且使用即插即用的工具。"MIT研究生、该论文主要作者Dominic Maggio表示。

这项研究由Maggio、博士后Hyungtae Lim和高级作者Luca Carlone教授共同完成。Carlone是MIT航空航天系副教授、信息与决策系统实验室(LIDS)主要研究员以及MIT SPARK实验室主任。他们的研究成果将在神经信息处理系统会议上发表。

MIT研究人员开发的3D地图生成系统

MIT人工智能驱动的系统增量创建和校准场景的较小子地图,然后将它们缝合在一起重建完整的3D地图,同时实时估计机器人位置。

解决SLAM技术长期挑战

多年来,研究人员一直致力于解决机器人导航中的一个基本要素——同时定位与地图构建(SLAM)。在SLAM中,机器人在空间中自我定位的同时重建环境地图。

传统优化方法在具有挑战性的场景中往往失败,或者需要预先校准机器人上的相机。为避免这些缺陷,研究人员训练机器学习模型从数据中学习这一任务。

尽管这些方法实现起来更简单,但即使是最先进的模型一次也只能处理大约60张相机图像,这使得在机器人需要快速穿越多样化环境并处理数千张图像的应用中变得不可行。

创新方法:子地图拼接技术

为解决这一问题,MIT研究人员设计了一种生成场景较小子地图而非整个地图的系统。他们的方法将这些子地图"粘合"在一起,形成完整的3D重建。模型仍然一次只处理少量图像,但通过将较小的子地图拼接在一起,系统可以更快地重建更大的场景。

"这看起来是一个非常简单的解决方案,但当我第一次尝试时,我很惊讶它效果并不好,"Maggio说。

寻找解释的过程中,他深入研究了1980和1990年代的计算机视觉研究论文。通过这些分析,Maggio意识到机器学习模型处理图像的方式存在误差,这使得对齐子地图成为一个更复杂的问题。

传统方法通过应用旋转和平移直到子地图对齐来操作。但这些新模型可能在子地图中引入一些模糊性,使它们更难对齐。例如,房间一侧的3D子地图可能有略微弯曲或拉伸的墙壁。简单地旋转和平移这些变形的子地图无法实现有效对齐。

"我们需要确保所有子地图都以一致的方式变形,这样我们才能很好地将它们相互对齐,"Carlone解释道。

灵活对齐方法:融合传统与现代技术

借鉴经典计算机视觉的理念,研究人员开发了一种更灵活、更具数学性的技术,可以表示这些子地图中的所有变形。通过将数学变换应用于每个子地图,这种更灵活的方法可以以一种解决模糊性的方式对齐它们。

基于输入图像,系统输出场景的3D重建和相机位置的估计,机器人将使用这些估计来在空间中定位自己。

"一旦Dominic有了连接这两个世界的直觉——基于学习的方法和传统优化方法——实现就相当直接了,"Carlone说。"提出如此有效和简单的解决方案有很多潜在应用。"

性能优势:速度与精度的完美平衡

与其它方法相比,他们的系统在速度和重建误差方面表现更佳,无需特殊相机或额外工具来处理数据。研究人员仅使用手机拍摄的视频,就生成了复杂场景(如MIT教堂内部)的接近实时3D重建。

这些3D重建的平均误差小于5厘米。

广阔应用前景

除了帮助搜救机器人导航外,这种方法还可用于为可穿戴设备(如VR头显)扩展现实应用,或使工业机器人能够在仓库中快速找到和移动货物。

未来,研究人员希望使他们的方法在特别复杂的场景中更加可靠,并努力在具有挑战性的环境中将其应用于真实机器人。

"了解传统几何学是有回报的。如果你深入了解模型中发生的事情,你可以获得更好的结果并使事情更具可扩展性,"Carlone说。

这项工作部分得到了美国国家科学基金会、美国海军研究办公室和韩国国家研究基金会的支持。

技术细节:VGGT-SLAM系统

该研究论文题为"VGGT-SLAM: Dense RGB SLAM Optimized on the SL(4) Manifold",详细介绍了这一创新系统。该系统通过结合深度学习与传统优化方法,实现了高效准确的实时3D环境重建。

与现有技术相比,VGGT-SLAM系统具有以下优势:

  1. 可处理任意数量的图像,不受传统模型处理能力的限制
  2. 无需预先校准相机或专家调整
  3. 重建速度快,几秒钟内可完成复杂场景建模
  4. 精度高,平均误差小于5厘米
  5. 实现简单,即插即用

这一突破性技术不仅为搜救机器人提供了更强大的导航能力,也为机器人技术在更广泛领域的应用开辟了新可能性。随着技术的进一步发展和完善,我们可以期待看到更多基于这一创新的实际应用,为人类社会带来更大的价值。