AI生成虚拟场景：MIT新工具革新机器人训练数据

在人工智能领域，ChatGPT和Claude等聊天机器人过去三年经历了使用量的爆炸式增长，因为它们能够帮助用户完成各种任务。无论是撰写莎士比亚十四行诗、调试代码，还是回答晦涩的冷知识问题，人工智能系统似乎都能满足需求。这种多功能性的来源？互联网上数十亿甚至数万亿的文本数据点。

然而，这些数据对于教会机器人成为有用的家庭或工厂助手来说远远不够。为了理解如何在各种环境中处理、堆叠和放置不同排列的物体，机器人需要演示数据。您可以将机器人训练数据视为一系列操作指南视频，引导系统完成每个动作的每个步骤。在真实机器人上收集这些演示既耗时又无法完美重复，因此工程师们通过使用AI生成模拟（这些模拟通常不反映真实世界的物理特性）或从头开始繁琐地手工制作每个数字环境来创建训练数据。

MIT计算机科学与人工智能实验室(CSAIL)与丰田研究院的研究人员可能已经找到了创建机器人所需的多样化、真实训练环境的方法。他们的"可导向场景生成"方法创建了厨房、客厅和餐厅等数字场景，工程师可以利用这些场景模拟大量真实世界的交互和场景。该系统在超过4400万个填充了桌子、盘子等物体模型的3D房间数据上进行训练，将现有资产放置在新场景中，然后将每个场景细化为物理准确、栩栩如生的环境。

可导向场景生成的工作原理

可导向场景生成通过"引导"扩散模型（一种从随机噪声生成视觉的AI系统）向日常生活中会遇到的场景方向来创建这些3D世界。研究人员使用这个生成系统来"修复"环境，填充场景中的特定元素。您可以想象一个空白画布突然变成一个散落着3D物体的厨房，这些物体逐渐重新排列成模仿真实世界物理的场景。例如，系统确保叉子不会穿过桌子上的碗——这是3D图形中常见的"剪切"现象，即模型重叠或相交。

然而，可导向场景生成如何将其创作引导向现实，取决于您选择的策略。其主要策略是"蒙特卡洛树搜索"(MCTS)，模型创建一系列替代场景，以特定目标（如使场景更具物理真实性，或包含尽可能多的可食用物品）为导向，以不同方式填充它们。它被AI程序AlphaGo用于在围棋（一种类似国际象棋的游戏）中击败人类对手，因为系统在选择最有利的移动之前会考虑潜在的移动序列。

"我们是第一个通过将场景生成任务框架化为顺序决策过程，将MCTS应用于场景生成的，"麻省理工学院电气工程与计算机科学(EECS)博士研究生、CSAIL研究员兼论文主要作者Nicholas Pfaff表示。"我们不断在部分场景的基础上构建，随时间推移产生更好或更符合需求的场景。因此，MCTS创建的场景比扩散模型训练的场景更加复杂。"

在一个特别有说服力的实验中，MCTS向一个简单的餐厅场景添加了最大数量的物体。在平均只有17个物体的场景上训练后，它在一个桌子上展示了多达34个物品，包括巨大的点心堆。

多样化训练场景的生成

可导向场景生成还允许通过强化学习生成多样化的训练场景——本质上是通过试错教扩散模型实现目标。在初始数据训练后，您的系统会进入第二训练阶段，您在此阶段概述一个奖励（基本上是一个带有分数的期望结果，表示您离目标有多近）。模型自动学会创建分数更高的场景，通常产生与其训练场景截然不同的场景。

用户还可以通过输入特定的视觉描述（如"一个厨房，桌上有四个苹果和一个碗"）直接提示系统。然后，可导向场景生成可以精确地将您的请求变为现实。例如，在构建食品储藏架场景时，该工具准确遵循用户提示的比率为98%，在凌乱的早餐桌子上为86%。这两个指标都比"MiDiffusion"和"DiffuScene"等可比方法高出至少10%。

该系统还可以通过提示或光线方向（如"使用相同物体想出不同的场景安排"）完成特定场景。例如，您可以要求它在厨房桌子上将苹果放在几个盘子上，或将棋盘游戏和书放在架子上。它基本上是通过在空白处放置物品来"填空"，但保留场景的其余部分。

研究人员的见解与未来展望

据研究人员称，他们项目的优势在于能够创建机器人学家实际可以使用的许多场景。"我们研究的一个关键见解是，我们预训练的场景不必与我们实际想要的场景完全相似，"Pfaff说。"使用我们的引导方法，我们可以超越这种广泛分布，从'更好'的分布中采样。换句话说，生成我们实际想要在其中训练机器人的多样化、真实且任务对齐的场景。"

这些广阔的场景成为了记录虚拟机器人与不同物品交互的测试场。例如，机器将叉子和刀仔细放入餐具架，在各种3D环境中将面包重新排列到盘子上。每个模拟看起来都流畅而真实，类似于可导向场景生成有朝一日可以帮助训练的真实世界、适应性强的机器人。

尽管该系统可能是为机器人生成大量多样化训练数据的一条有希望的前进道路，但研究人员表示，他们的工作更多是一个概念验证。在未来，他们希望使用生成式AI创建全新的物体和场景，而不是使用固定的资产库。他们还计划纳入可移动或扭转的物体（如橱柜或装有食物的罐子），使场景更具互动性。

为了使他们的虚拟环境更加真实，Pfaff和他的同事可能会使用从互联网图像中提取的物体和场景库，并结合他们在"可扩展现实到模拟"(Scalable Real2Sim)方面的先前工作，纳入真实世界的物体。通过扩展AI构建的机器人测试场的多样性和真实性，该团队希望建立一个用户社区，创造大量数据，这些数据可以用作大型数据集，教灵巧的机器人掌握不同技能。

行业专家评价

"今天，为模拟创建真实场景可能相当具有挑战性；程序生成可以轻松产生大量场景，但它们可能无法代表机器人在现实世界中遇到的环境。手动创建定制场景既耗时又昂贵，"未参与该论文的亚马逊机器人应用科学家Jeremy Binagia表示。"可导向场景生成提供了一种更好的方法：在大量现有场景集合上训练生成模型，并使用强化学习等策略将其适应特定的下游应用。与利用现成视觉语言模型或仅专注于在2D网格中排列物体的先前工作相比，这种方法保证了物理可行性，并考虑了完整的3D平移和旋转，能够生成更有趣的场景。"

"可导向场景生成通过训练后和推理时搜索，为大规模自动化场景生成提供了一种新颖高效的框架，"未参与该论文的丰田研究院机器人学家Rick Cory SM '08, PhD '10表示。"此外，它可以生成下游任务认为重要的'前所未见'的场景。未来，将此框架与庞大的互联网数据相结合，可能为机器人在现实世界部署的高效训练实现一个重要的里程碑。"

技术细节与支持

Pfaff与高级作者Russ Tedrake共同撰写了论文，Tedrake是MIT电气工程与计算机科学、航空航天工程和机械工程丰田教授；丰田研究院大型行为模型高级副总裁；以及CSAIL首席研究员。其他作者包括丰田研究院机器人研究员Hongkai Dai SM '12, PhD '16；团队负责人兼高级研究员Sergey Zakharov；以及卡内基梅隆大学博士生Shun Iwase。他们的工作部分得到了亚马逊和丰田研究院的支持。研究人员于9月在机器人学习会议(CoRL)上展示了他们的工作。

这项研究代表了机器人训练方法的重要突破，通过生成式AI创造了更真实、更多样化的虚拟环境，为机器人学习提供了更丰富的数据基础。随着技术的进一步发展，我们有望看到机器人在各种现实场景中展现出更强的适应性和执行能力。