告别云端！谷歌 Gemini Robotics 开启机器人自主新纪元

谷歌Gemini Robotics：无需云端，自主运行的机器人时代

一直以来，我们常常将像Gemini和ChatGPT这样的聊天机器人称为“机器人”，但生成式AI在实际物理机器人领域正扮演着日益重要的角色。在今年早些时候发布Gemini Robotics之后，Google DeepMind现在推出了一款新的设备端VLA（视觉语言动作）模型来控制机器人。与之前的版本不同，该模型没有云组件，从而使机器人能够完全自主地运行。

Apollo robot

Google DeepMind的机器人负责人Carolina Parada表示，这种AI机器人方法可以使机器人在具有挑战性的情况下更加可靠。这也是谷歌机器人模型的首个版本，开发人员可以针对其特定用途进行调整。

机器人技术对于AI来说是一个独特的问题，因为机器人不仅存在于物理世界中，还会改变其环境。无论是让它移动积木还是系鞋带，都很难预测机器人可能遇到的每一种情况。传统的通过强化学习训练机器人进行动作的方法非常缓慢，但生成式AI可以实现更大的泛化。

"它借鉴了Gemini的多模态世界理解能力，从而完成一项全新的任务，" Carolina Parada解释说。“它所实现的是，以Gemini可以生成文本、创作诗歌、总结文章的相同方式，你也可以编写代码，生成图像。它也可以生成机器人动作。”

无需云端的通用机器人

在之前的Gemini Robotics版本（仍然是谷歌“最佳”机器人技术版本）中，平台运行的是一种混合系统，机器上运行的是小型模型，云端运行的是大型模型。你可能已经观察到聊天机器人在生成输出时会“思考”几秒钟，但机器人需要快速反应。如果你告诉机器人拿起并移动一个物体，你不会希望它在生成每一个步骤时都停顿。本地模型可以实现快速适应，而基于服务器的模型可以帮助处理复杂的推理任务。Google DeepMind现在正在将本地模型作为独立的VLA发布，并且它非常强大。

新的Gemini Robotics On-Device模型仅比混合版本略微不准确。根据Parada的说法，许多任务都可以开箱即用。“当我们与机器人互动时，我们发现它们出人意料地能够理解新的情况，”Parada告诉Ars。

通过发布带有完整SDK的该模型，该团队希望开发人员能够为Gemini驱动的机器人提供新的任务，并向它们展示新的环境，这可能会揭示出哪些动作与该模型的库存调整不兼容。借助SDK，机器人研究人员将能够通过仅50到100个演示来使VLA适应新的任务。

Robotics On-Device chart

在AI机器人技术中，“演示”与其他AI研究领域略有不同。Parada解释说，演示通常涉及远程操作机器人——手动控制机器完成一项任务，从而调整模型以自主处理该任务。虽然合成数据是谷歌训练的一个要素，但它不能替代真实数据。“我们仍然发现在最复杂、最灵巧的行为中，我们需要真实数据，”Parada说。“但是你可以通过模拟做很多事情。”

但是，这些高度复杂的行为可能超出了设备端VLA的能力范围。它应该可以轻松完成诸如系鞋带（传统上对于AI机器人来说是一项艰巨的任务）或折叠衬衫之类的简单动作。但是，如果你希望机器人为你制作三明治，它可能需要更强大的模型来完成将面包放在正确位置所需的多步骤推理。

该团队认为Gemini Robotics On-Device非常适合连接到云端不稳定或不存在的环境。在本地处理机器人的视觉数据也更利于隐私，例如在医疗保健环境中。

构建安全的机器人

对于AI系统来说，安全始终是一个问题，无论是提供危险信息的聊天机器人还是变成终结者的机器人。我们都见过生成式AI聊天机器人和图像生成器在其输出中产生虚假信息，而为Gemini Robotics提供支持的生成式系统也不例外——该模型并非每次都能正确运行，但是为该模型提供具有冰冷、无情金属抓手的物理体现使该问题变得更加棘手。

为了确保机器人安全运行，Gemini Robotics采用了一种多层方法。“使用完整的Gemini Robotics，你可以连接到一个正在推理做什么事情是安全的模型，”Parada说。“然后让它与一个实际产生选项的VLA对话，然后该VLA调用一个低级控制器，该控制器通常具有安全关键组件，例如你可以移动多少力或可以多快地移动该手臂。”

重要的是，新的设备端模型只是一个VLA，因此开发人员将需要自己构建安全性。不过，谷歌建议他们复制Gemini团队所做的工作。建议早期测试人员计划中的开发人员将系统连接到标准的Gemini Live API，其中包括安全层。他们还应该为关键安全检查实施低级控制器。

任何有兴趣测试Gemini Robotics On-Device的人都应该申请访问谷歌的受信任测试人员计划。谷歌的Carolina Parada表示，在过去三年中，机器人技术领域取得了许多突破，而这仅仅是个开始——当前版本的Gemini Robotics仍然基于Gemini 2.0。Parada指出，Gemini Robotics团队通常落后于Gemini开发一个版本，而Gemini 2.5已被认为是聊天机器人功能的巨大改进。也许机器人也是如此。