谷歌发布云端自由机器人AI:Gemini Robotics On-Device引领未来

1

在机器人领域,谷歌一直走在前沿,而其最新的成果——无需云端支持的机器人AI,无疑再次引发了业界的广泛关注。这款名为Gemini Robotics On-Device的AI模型,标志着机器人技术发展的一个重要转折点,它让机器人能够在本地环境中自主运行,摆脱了对云端连接的依赖。本文将深入探讨这项技术的突破性意义、潜在应用以及未来发展方向。

Gemini Robotics On-Device:开启机器人自主时代

过去,我们常常将聊天机器人如Gemini和ChatGPT称为“机器人”,但实际上,生成式AI在真正的物理机器人中正扮演着越来越重要的角色。谷歌DeepMind在今年早些时候发布Gemini Robotics之后,又推出了一款全新的本地VLA(视觉语言行动)模型,用于控制机器人。与之前的版本不同,这款模型无需云端组件,从而使机器人能够完全自主地运行。

谷歌DeepMind机器人部门负责人Carolina Parada表示,这种AI机器人方法可以提高机器人在复杂环境中的可靠性。同时,这也是谷歌首个允许开发者针对特定用途进行调整的机器人模型。

机器人技术对AI来说是一个独特的挑战,因为机器人不仅存在于物理世界中,还会改变其环境。无论是移动物体还是系鞋带,预测机器人可能遇到的每一种情况都非常困难。传统的机器人训练方法通常依赖于强化学习,但这种方法非常缓慢。而生成式AI的出现,为机器人技术带来了更大的泛化能力。

Parada解释说:“它利用Gemini的多模态世界理解能力来完成全新的任务。就像Gemini可以生成文本、创作诗歌或总结文章一样,它也可以编写代码并生成图像,甚至可以生成机器人行动。”

无需云端:本地AI的优势与挑战

之前的Gemini Robotics版本采用混合系统,即机器人上运行一个小型模型,云端运行一个大型模型。虽然基于服务器的模型可以帮助机器人完成复杂的推理任务,但机器人需要快速响应。例如,当你指示机器人拿起并移动一个物体时,你肯定不希望它在生成每一个步骤时都停顿下来。而本地模型则允许机器人快速适应环境。

如今,谷歌DeepMind将本地模型作为一个独立的VLA发布,其鲁棒性令人惊讶。据Parada称,许多任务都可以直接完成。“当我们与机器人互动时,我们发现它们非常能够理解新的情况,”Parada告诉Ars Technica。

通过发布包含完整SDK的这款模型,谷歌DeepMind希望开发者能够赋予Gemini驱动的机器人新的任务,并向它们展示新的环境,从而发现哪些行动无法与该模型的标准调优协同工作。借助SDK,机器人研究人员只需50到100次演示,就能够将VLA应用于新的任务。

AI机器人技术中的“演示”与其他AI研究领域略有不同。Parada解释说,演示通常包括远程操作机器人——手动控制机器完成任务,从而调整模型以自主处理该任务。虽然合成数据是谷歌训练的一个要素,但它不能取代真实数据。“我们仍然发现,在最复杂、最灵巧的行为中,我们需要真实数据,”Parada说。“但通过模拟,你可以做很多事情。”

应用场景:从系鞋带到医疗保健

虽然一些高度复杂的行为可能超出了本地VLA的能力范围,但对于系鞋带(传统上对AI机器人来说是一项艰巨的任务)或叠衬衫等简单的动作,它应该能够轻松胜任。然而,如果你想让机器人为你做一份三明治,它可能需要一个更强大的模型来完成将面包放在正确位置所需的多步骤推理。

谷歌DeepMind团队认为,Gemini Robotics On-Device非常适合那些与云端连接不稳定或不存在的环境。在本地处理机器人的视觉数据也有利于保护隐私,例如在医疗保健环境中。

安全第一:构建安全的机器人

对于AI系统来说,安全始终是一个重要的问题。生成式AI聊天机器人和图像生成器可能会产生虚假信息,而为Gemini Robotics提供动力的生成式系统也不例外——该模型并非每次都能保证正确。但由于该模型拥有一个物理形态,这使得这个问题变得更加棘手。

为了确保机器人安全运行,Gemini Robotics采用了一种多层方法。“通过完整的Gemini Robotics,你可以连接到一个能够推理出什么是安全的模型,”Parada说。“然后,你可以让它与一个VLA对话,该VLA可以生成选项,然后该VLA会调用一个低级控制器,该控制器通常具有安全关键组件,例如你可以移动多少力或你可以多快地移动这个手臂。”

重要的是,新的本地模型只是一个VLA,因此开发者需要自行构建安全措施。谷歌建议他们复制Gemini团队的做法。建议早期测试人员将该系统连接到标准的Gemini Live API,其中包括一个安全层。他们还应该为关键安全检查实施一个低级控制器。

未来展望:Gemini 2.5的潜力

任何有兴趣测试Gemini Robotics On-Device的人都可以申请访问谷歌的Trusted Tester Program。谷歌的Carolina Parada表示,在过去的三年里,机器人技术取得了许多突破,而这仅仅只是一个开始——当前版本的Gemini Robotics仍然基于Gemini 2.0。Parada指出,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5已被认为是聊天机器人功能的巨大改进。也许机器人也会如此。

随着AI技术的不断发展,我们有理由相信,未来的机器人将变得更加智能、安全和可靠,从而在各个领域为人类提供更好的服务。

总而言之,谷歌发布的这款无需云端支持的机器人AI,无疑为机器人技术的发展注入了新的活力。它不仅提高了机器人的自主性和可靠性,还为开发者提供了更大的灵活性和创造空间。随着技术的不断成熟和应用场景的不断拓展,我们有理由期待,未来的机器人将在我们的生活中扮演更加重要的角色。