MIT创新AI工具:可引导场景生成技术重塑机器人虚拟训练环境

1

在人工智能领域,大型语言模型如ChatGPT和Claude的崛起令人瞩目。这些系统通过互联网上的数十亿甚至数万亿个文本数据点进行训练,能够协助用户完成从创作莎士比亚十四行诗到调试代码的各种任务。然而,这些文本数据对于教会机器人成为有用的家庭或工厂助手来说远远不够。

机器人需要理解如何在各种环境中处理、堆叠和放置不同排列的物体,而这需要大量的演示数据。可以想象,机器人训练数据就像是教学视频,引导系统完成任务的每个动作。在真实机器人上收集这些演示既耗时又难以完美重复,因此工程师们一直尝试通过AI生成模拟数据(这些数据往往不能准确反映现实世界物理规律)或从零开始繁琐地手工制作每个数字环境。

窴破性技术:可引导场景生成

MIT计算机科学与人工智能实验室(CSAIL)与丰田研究院的研究人员可能已经找到了创造机器人所需的多样化、逼真训练环境的方法。他们的"可引导场景生成"方法能够创建厨房、客厅和餐厅等数字场景,工程师可以利用这些场景模拟大量现实世界交互和场景。

该工具在包含桌子、盘子等物体模型的4400万个3D房间上进行训练,将现有资产放置在新场景中,然后将每个场景细化为物理准确、栩栩如生的环境。

AI快讯

可引导场景生成通过"引导"扩散模型(一种从随机噪声生成视觉的AI系统)来创建这些3D世界,使其朝着日常生活中常见的场景发展。研究人员使用这种生成系统来"修复"环境,填充场景中的特定元素。你可以想象一个空白画布突然变成散落着3D物体的厨房,这些物体逐渐重新排列成模仿现实世界物理的场景。例如,该系统确保叉子不会穿过桌子上的碗——这是3D图形中常见的"剪切"错误,即模型重叠或相交。

引导策略:蒙特卡洛树搜索

然而,可引导场景生成如何引导其创作走向逼真,取决于您选择的策略。其主要策略是"蒙特卡洛树搜索"(MCTS),模型创建一系列替代场景,以不同方式填充它们,以实现特定目标(如使场景更符合物理现实,或包含尽可能多的可食用物品)。

MCTS被AI程序AlphaGo用于在围棋(一种类似国际象棋的游戏)中击败人类对手,因为系统在选择最有利的移动之前会考虑潜在的移动序列。

"我们是第一个通过将场景生成任务框定为顺序决策过程,将MCTS应用于场景生成的,"MIT电气工程与计算机科学(EECS)博士研究生、CSAIL研究员兼论文主要作者Nicholas Pfaff表示,"我们不断在部分场景的基础上构建,随时间推移产生更好或更符合需求的场景。因此,MCTS创建的场景比扩散模型训练的场景更复杂。"

在一个特别说明性的实验中,MCTS在一个简单的餐厅场景中添加了最大数量的物体。在平均只有17个物体的场景上训练后,它在一个桌子上展示了多达34个物品,包括巨大的点心堆。

多样化场景生成:强化学习与直接提示

可引导场景生成还允许通过强化学习生成多样化的训练场景——本质上是通过试错教扩散模型实现目标。在初始数据训练后,您的系统会进入第二训练阶段,您在此阶段概述奖励(基本上是带有分数的期望结果,表示您离目标的接近程度)。模型自动学会创建分数更高的场景,通常产生与其训练场景大不相同的场景。

用户还可以通过输入特定的视觉描述(如"桌子上放有四个苹果和一个碗的厨房")直接提示系统。然后,可引导场景生成可以精确地实现您的要求。例如,在构建食品储藏架场景时,该工具准确遵循用户提示的比率为98%,对于凌乱的早餐桌为86%。这两项标记都比"MiDiffusion"和"DiffuScene"等类似方法提高了至少10%。

该系统还可以通过提示或简单指令(如"使用相同物体想出不同的场景安排")完成特定场景。例如,您可以要求它将苹果放在厨房桌子的几个盘子上,或将棋盘游戏和书籍放在架子上。它本质上是通过将物品放入空白空间"填补空白",同时保留场景的其余部分。

研究人员的洞察与未来展望

据研究人员称,他们项目的优势在于能够创建机器人学家实际可以使用的许多场景。"我们研究结果的一个关键见解是,我们预训练的场景不必与我们实际想要的场景完全相似,"Pfaff表示,"使用我们的引导方法,我们可以超越这种广泛分布,从'更好'的分布中采样。换句话说,生成我们实际想要训练机器人的多样化、逼真和任务对齐的场景。"

这些广阔的场景成为了他们记录虚拟机器人与不同物品交互的测试场。例如,机器将叉子和刀仔细放入餐具架中,并在各种3D环境中将面包重新排列到盘子上。每个模拟都显得流畅而逼真,类似于可引导场景生成有朝一日可以帮助训练的现实世界、适应性强的机器人。

虽然该系统可能是为机器人生成大量多样化训练数据的一条有希望的前进道路,但研究人员表示,他们的工作更多是一个概念验证。在未来,他们希望使用生成式AI创建全新的物体和场景,而不是使用固定的资产库。他们还计划引入机器人可以打开或扭动的铰接物体(如橱柜或装满食物的罐子),使场景更具互动性。

为了使他们的虚拟环境更加逼真,Pfaff和他的同事可能会通过使用从互联网图像中提取的物体和场景库,并利用他们之前在"可扩展现实到模拟"方面的工作,融入现实世界的物体。通过扩展AI构建的机器人测试场的多样性和逼真度,该团队希望建立一个用户社区,创造大量数据,这些数据可以用作大型数据集,教灵巧的机器人不同的技能。

行业专家评价

"如今,为模拟创建逼真场景可能是一项相当具有挑战性的任务;程序生成可以轻松产生大量场景,但它们可能无法代表机器人在现实世界中遇到的环境。手动创建定制场景既耗时又昂贵,"未参与该论文的Amazon Robotics应用科学家Jeremy Binagia表示,"可引导场景生成提供了一种更好的方法:在大量现有场景集合上训练生成模型,并使用强化学习等策略使其适应特定下游应用。与利用现成视觉语言模型或仅专注于在2D网格中排列物体的先前工作相比,这种方法保证了物理可行性,并考虑了完整的3D平移和旋转,能够生成更有趣的场景。"

"通过训练后推理时搜索的可引导场景生成,为大规模自动化场景生成提供了一种新颖高效的框架,"未参与该论文的丰田研究院机器人学家Rick Cory SM '08, PhD '10表示,"此外,它可以生成对下游任务被认为重要的'前所未见'的场景。未来,将此框架与大量互联网数据相结合,可能为机器人在现实世界部署的高效训练实现重要里程碑。"

研究背景与支持

Pfaff与资深作者Russ Tedrake共同撰写了论文,Tedrake是MIT电气工程与计算机科学、航空航天工程和机械工程丰田教授,丰田研究院大型行为模型高级副总裁,以及CSAIL主要研究员。其他作者包括丰田研究院机器人研究员Hongkai Dai SM '12, PhD '16;团队负责人兼高级研究科学家Sergey Zakharov;以及卡内基梅隆大学博士研究生Shun Iwase。他们的工作得到了Amazon和丰田研究院的部分支持。研究人员于9月在机器人学习会议(CoRL)上展示了他们的工作。

这项研究代表了机器人训练领域的重要突破,通过生成式AI创造了更接近现实的虚拟环境,为机器人学习提供了前所未有的丰富数据资源。随着技术的不断完善,我们有理由相信,未来的机器人将能够更快地适应各种复杂环境,更好地服务于人类。