谷歌AI机器人新突破:无需云端,自主运行的未来已来?

1

在科技日新月异的今天,人工智能(AI)正以惊人的速度渗透到我们生活的方方面面。从最初的聊天机器人到如今能够操控物理机器人的智能系统,AI的发展历程可谓是精彩纷呈。近日,谷歌DeepMind发布了一项引人瞩目的研究成果——一种全新的设备端视觉语言行动(VLA)模型,该模型赋予了机器人更强的自主性和适应性,标志着机器人技术发展的一个重要里程碑。

Gemini Robotics:AI机器人技术的革新

早在今年年初,谷歌就发布了Gemini Robotics项目,旨在探索AI在机器人领域的应用。与之前的版本不同,新发布的设备端VLA模型无需依赖云端计算,实现了完全的自主运行。这意味着机器人可以在没有网络连接的情况下,依然能够可靠地执行各种任务,这对于在偏远地区或网络不稳定的环境中的应用至关重要。

谷歌DeepMind机器人部门负责人Carolina Parada表示,这种AI机器人技术方案能够显著提高机器人在复杂环境中的可靠性。更重要的是,这是谷歌首个允许开发者根据特定需求进行调整的机器人模型,为机器人技术的创新应用打开了新的大门。

AI机器人面临的独特挑战

机器人技术面临着AI领域独有的挑战。与传统的AI应用不同,机器人不仅存在于虚拟世界,还需要与物理环境进行互动,并能够改变周围的环境。无论是移动物体还是完成精细的任务,机器人都需要具备预测和应对各种突发情况的能力。传统的强化学习方法在训练机器人方面效率较低,而生成式AI的出现为解决这一问题提供了新的思路。

Parada解释说:“Gemini的强大之处在于其对多模态世界的理解能力,这使得机器人能够执行全新的任务。就像Gemini可以生成文本、创作诗歌或总结文章一样,它也可以编写代码并生成图像,甚至可以生成机器人行动。”

Apollo robot

无需云端:通用机器人的新时代

之前的Gemini Robotics版本采用混合系统,即在机器人端运行小型模型,同时依赖云端运行大型模型。虽然这种混合系统在处理复杂推理任务方面表现出色,但机器人需要快速响应环境变化,不能像聊天机器人那样“思考”几秒钟才能做出反应。因此,谷歌DeepMind推出了独立的设备端VLA模型,旨在实现更快的适应性和响应速度。

据Parada介绍,新的设备端Gemini Robotics模型在精度上与混合版本相差无几,并且在许多任务中都能够直接应用。她说:“当我们与机器人互动时,我们发现它们惊人地擅长理解新的情境。”

通过发布包含完整软件开发工具包(SDK)的设备端模型,谷歌DeepMind希望开发者能够为Gemini驱动的机器人赋予新的任务,并在新的环境中进行测试,从而发现模型在默认调优下无法正常工作的情况。借助SDK,机器人研究人员只需进行50到100次演示,即可使VLA适应新的任务。

Robotics On-Device chart

演示的力量:训练AI机器人的新方法

在AI机器人领域,“演示”的概念与其他AI研究领域略有不同。Parada解释说,演示通常涉及远程操作机器人——即手动控制机器完成任务,从而训练模型自主处理该任务。虽然合成数据也是谷歌训练的一部分,但它不能完全替代真实数据。Parada表示:“我们仍然发现,在最复杂、最灵巧的行为中,我们需要真实的数据。但是,通过模拟可以完成很多工作。”

然而,这些高度复杂的行为可能超出了设备端VLA的能力范围。对于简单的动作,如系鞋带(传统上对AI机器人来说是一项艰巨的任务)或叠衬衫,设备端VLA应该能够轻松胜任。但是,如果想要机器人制作三明治,则可能需要更强大的模型来完成多步骤的推理,以确保面包放置在正确的位置。

谷歌DeepMind团队认为,设备端Gemini Robotics非常适合在无法连接到云端的环境中使用。在本地处理机器人的视觉数据也有利于保护隐私,例如在医疗保健环境中。

构建安全的AI机器人

安全性始终是AI系统需要考虑的一个重要问题,无论是提供危险信息的聊天机器人还是变成“终结者”的机器人。我们都见过生成式AI聊天机器人和图像生成器在其输出中产生虚假信息,而为Gemini Robotics提供动力的生成式系统也不例外——该模型并非每次都能正确执行任务。因此,确保机器人安全可靠地运行至关重要。

为了确保机器人行为安全,Gemini Robotics采用多层方法。Parada表示:“对于完整的Gemini Robotics,您连接到一个能够推理出什么是安全行为的模型。然后,让它与VLA对话,VLA实际产生行动选项,然后VLA调用一个低级控制器,该控制器通常具有安全关键组件,例如您可以移动多少力或可以多快地移动该手臂。”

重要的是,新的设备端模型只是一个VLA,因此开发者需要自行构建安全机制。谷歌建议开发者复制Gemini团队的做法,即建议早期测试者将系统连接到标准的Gemini Live API,其中包括安全层。他们还应该为关键安全检查实施低级控制器。

任何有兴趣测试设备端Gemini Robotics的人都应该申请访问谷歌的Trusted Tester计划。谷歌的Carolina Parada表示,过去三年机器人技术取得了许多突破,而这仅仅是个开始——当前版本的Gemini Robotics仍然基于Gemini 2.0。Parada指出,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5已被认为是聊天机器人功能的巨大改进。也许机器人也会如此。

结论与展望

谷歌DeepMind发布的设备端Gemini Robotics模型是一项具有里程碑意义的创新,它赋予了机器人更强的自主性和适应性,为机器人技术在各个领域的应用开辟了新的可能性。随着AI技术的不断发展,我们有理由相信,未来的机器人将变得更加智能、安全和可靠,为人类的生活带来更多的便利和福祉。

然而,我们也必须清醒地认识到,AI机器人技术的发展仍然面临着诸多挑战,例如如何确保机器人的安全性和可靠性,如何解决机器人在复杂环境中遇到的问题,以及如何平衡AI技术发展与伦理道德之间的关系。只有通过不断地探索和创新,我们才能充分发挥AI机器人技术的潜力,并为人类创造一个更加美好的未来。