谷歌AI新突破:无需云端,自主机器人时代来临?

1

在机器人技术领域,谷歌一直走在前沿。最近,谷歌DeepMind发布了一项引人注目的创新——一种全新的设备端视觉语言行为(VLA)模型,旨在赋予机器人更强的自主性和适应性。这项技术突破不仅消除了对云连接的依赖,还在机器人与环境的交互方式上开辟了新的可能性。

自主机器人的崛起

长期以来,机器人技术的发展受到计算能力的限制,许多高级功能需要依赖强大的云计算支持。然而,谷歌DeepMind的新型设备端VLA模型改变了这一现状。该模型允许机器人在本地处理和理解视觉信息,从而更快地做出决策并执行任务。这种自主性对于在难以建立稳定网络连接的环境中运行的机器人至关重要。想象一下,在偏远地区的灾难救援行动中,或者在网络基础设施薄弱的工厂车间里,配备这种VLA模型的机器人可以独立完成复杂的任务,而无需担心与云端的通信中断。

Apollo robot

Carolina Parada的洞见

谷歌DeepMind机器人部门负责人Carolina Parada强调,这种新的AI机器人方法能够显著提高机器人在复杂环境中的可靠性。与之前的版本不同,这个新模型允许开发者根据其特定用途进行调整。Parada解释说,机器人技术面临的独特挑战在于,机器人不仅存在于物理世界中,还会改变其环境。无论是移动物体还是系鞋带,预测机器人可能遇到的每一种情况都非常困难。传统的强化学习方法训练机器人行动非常缓慢,但生成式AI的出现极大地提高了泛化能力。

Parada进一步指出,这项技术利用了Gemini的多模态世界理解能力来完成全新的任务。就像Gemini可以生成文本、创作诗歌或总结文章一样,它也可以编写代码并生成图像,甚至生成机器人动作。这种通用性使得机器人能够适应各种不同的任务和环境。

通用机器人,摆脱云端束缚

之前的Gemini机器人版本采用了一种混合系统,即在机器人上运行一个小型模型,同时在云端运行一个大型模型。然而,这种方法存在延迟问题。正如我们所见,聊天机器人在生成输出时需要几秒钟的“思考”时间,但机器人需要快速反应。如果告诉机器人拿起并移动一个物体,你肯定不希望它在生成每个步骤时都停顿一下。而本地模型能够实现快速适应,同时服务器模型可以协助完成复杂的推理任务。谷歌DeepMind现在将本地模型作为独立的VLA发布,其稳健性令人惊讶。

据Parada介绍,新的Gemini Robotics On-Device模型的准确性仅略低于混合版本。许多任务都可以直接完成。Parada告诉Ars Technica的记者:“当我们与机器人互动时,我们发现它们惊人地能够理解新的情况。”

开发者的新机遇

通过发布包含完整SDK的该模型,谷歌团队希望开发者能够赋予Gemini驱动的机器人新的任务,并向它们展示新的环境。这将有助于揭示哪些动作不适用于该模型的库存调整。借助SDK,机器人研究人员只需50到100次演示,就能够使VLA适应新的任务。

Robotics On-Device chart

在AI机器人技术中,“演示”的概念与其他AI研究领域略有不同。Parada解释说,演示通常涉及远程操作机器人——手动控制机器完成任务,从而调整模型以自主处理该任务。虽然合成数据是谷歌训练的一个要素,但它不能替代真实数据。Parada说:“我们仍然发现,在最复杂、最灵巧的行为中,我们需要真实数据。但是,通过模拟可以完成很多工作。”

任务的边界

尽管设备端VLA具有诸多优势,但它可能无法胜任高度复杂的行为。对于诸如系鞋带或叠衬衫等简单的动作,它应该没有问题。然而,如果想要机器人为你制作三明治,它可能需要更强大的模型来完成将面包放在正确位置所需的多步骤推理。

谷歌团队认为,Gemini Robotics On-Device非常适合连接不稳定或不存在的环境。在本地处理机器人的视觉数据也有利于保护隐私,例如在医疗保健环境中。

构建安全的机器人

安全始终是AI系统的一个重要考量因素,无论是提供危险信息的聊天机器人还是变成终结者的机器人。我们都见过生成式AI聊天机器人和图像生成器在其输出中产生虚假信息,而为Gemini Robotics提供动力的生成式系统也不例外——该模型并非每次都正确,但赋予该模型一个具有冰冷、无情金属抓手的物理体现,会使问题变得更加棘手。

为了确保机器人安全运行,Gemini Robotics采用了一种多层方法。Parada说:“使用完整的Gemini Robotics,你可以连接到一个正在推理什么是安全行为的模型。然后,你可以让它与一个实际产生选项的VLA对话,然后该VLA调用一个低级控制器,该控制器通常具有安全关键组件,例如你可以移动多少力或可以多快地移动这个手臂。”

重要的是,新的设备端模型只是一个VLA,因此开发者需要自行构建安全性。谷歌建议他们复制Gemini团队所做的工作。建议早期测试人员将系统连接到标准的Gemini Live API,其中包括安全层。他们还应该为关键安全检查实施低级控制器。

任何有兴趣测试Gemini Robotics On-Device的人都应该申请访问Google的受信任测试人员计划。谷歌的Carolina Parada表示,过去三年机器人技术取得了许多突破,而这仅仅是个开始——当前版本的Gemini Robotics仍然基于Gemini 2.0。Parada指出,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5已被认为是聊天机器人功能的巨大改进。也许机器人也会如此。

结论

谷歌DeepMind发布的设备端VLA模型标志着机器人技术发展的重要一步。通过赋予机器人更强的自主性和适应性,这项技术有望在各种领域开启新的应用。从灾难救援到医疗保健,从制造业到家庭服务,自主机器人有望在未来发挥越来越重要的作用。随着技术的不断进步和完善,我们有理由相信,未来的机器人将更加智能、安全和可靠,成为我们生活中不可或缺的伙伴。