在2025年,人工智能(AI)不再仅仅是存在于云端的概念,而是真正走入了我们的日常生活,成为了我们身边得力的助手。谷歌的最新成果——无需云端支持的机器人AI,正预示着这一变革的到来。这款名为Gemini Robotics的AI系统,能够在本地设备上运行,让机器人摆脱了对网络的依赖,实现了完全自主的操作。这不仅提高了机器人在复杂或网络不稳定的环境中工作的可靠性,也为机器人技术的应用开辟了新的可能性。
Gemini Robotics:本地AI的突破
谷歌DeepMind的机器人负责人Carolina Parada表示,Gemini Robotics的独特之处在于其能够在本地设备上运行视觉语言行动(VLA)模型。这意味着机器人可以直接处理视觉信息,理解人类的指令,并执行相应的动作,而无需将数据传输到云端进行处理。这种本地化的AI不仅提高了响应速度,还保护了用户的隐私,因为所有的数据都保留在本地设备上。
机器人技术的挑战与机遇
机器人技术一直面临着一个独特的挑战:机器人不仅存在于物理世界中,还需要与环境互动并改变环境。无论是移动物体还是系鞋带,机器人需要预测并应对各种可能发生的情况。传统的强化学习方法在训练机器人方面效率较低,但生成式AI的出现为解决这个问题带来了新的希望。
Gemini Robotics利用了Gemini的多模态世界理解能力,使机器人能够执行全新的任务。就像Gemini可以生成文本、创作诗歌和总结文章一样,它也可以编写代码和生成图像,甚至生成机器人的行动指令。这种通用性使得机器人能够适应各种不同的任务,而无需为每个任务进行专门的训练。
无需云端的通用机器人
与之前的版本相比,Gemini Robotics的最大优势在于其能够在本地设备上运行。之前的版本采用混合系统,机器人在本地运行小型模型,并在云端运行大型模型。虽然云端模型可以提供更强大的计算能力,但它也带来了延迟问题。机器人需要快速响应,尤其是在需要立即采取行动的情况下。本地模型的出现解决了这个问题,使机器人能够快速适应环境并执行任务。
据Parada介绍,新的Gemini Robotics On-Device模型在许多任务中的表现都非常出色。即使在没有经过专门训练的情况下,机器人也能够理解新的情况并采取适当的行动。谷歌DeepMind通过发布包含完整SDK的本地模型,希望开发者能够为Gemini驱动的机器人开发新的任务,并探索新的应用场景。研究人员只需进行50到100次演示,就可以将VLA适配到新的任务中。
数据与训练:真实与虚拟的结合
在AI机器人领域,“演示”的概念与其他AI研究领域略有不同。Parada解释说,演示通常涉及远程操作机器人——通过手动控制机器人完成任务来调整模型,使其能够自主处理该任务。虽然合成数据在谷歌的训练中发挥了一定的作用,但它不能完全替代真实数据。Parada指出,在处理最复杂、最灵巧的行为时,仍然需要真实数据。然而,通过模拟可以完成很多工作。
本地VLA的局限与应用
虽然本地VLA在许多任务中表现出色,但它可能无法胜任高度复杂的行为。例如,它可以轻松地完成系鞋带或叠衬衫等任务,但如果需要机器人制作三明治,它可能需要更强大的模型来进行多步骤推理,以确保将面包放在正确的位置。Gemini Robotics On-Device非常适合在云连接不稳定或不存在的环境中使用。在本地处理机器人的视觉数据也有助于保护隐私,例如在医疗保健环境中。
构建安全的机器人
安全性始终是AI系统需要考虑的重要问题。无论是提供危险信息的聊天机器人,还是变成终结者的机器人,都可能带来安全风险。生成式AI聊天机器人和图像生成器可能会产生虚假信息,而驱动Gemini Robotics的生成式系统也不例外。虽然模型并非每次都能给出正确的结果,但考虑到机器人拥有可以抓握物体的机械手臂,这个问题就显得更加棘手。
为了确保机器人安全运行,Gemini Robotics采用了多层方法。Parada表示,完整的Gemini Robotics系统会连接到一个能够推理出什么是安全行为的模型。然后,该模型会与一个VLA进行通信,VLA会生成操作选项,并调用一个低级控制器,该控制器通常包含安全关键组件,例如可以移动多少力或可以以多快的速度移动手臂。
重要的是,新的本地模型只是一个VLA,因此开发者需要自行构建安全性。谷歌建议开发者复制Gemini团队的做法,例如将系统连接到包含安全层的标准Gemini Live API,并实施一个用于关键安全检查的低级控制器。
Gemini Robotics的未来展望
谷歌的Carolina Parada表示,过去三年在机器人技术领域取得了许多突破,而这仅仅是开始。当前的Gemini Robotics版本仍然基于Gemini 2.0。Parada指出,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5在聊天机器人功能方面被认为是一个巨大的改进。或许机器人也会如此。
总结
谷歌发布的全新AI机器人模型,无疑代表了机器人技术发展的一大步。无需依赖云端,机器人也能自主完成各种任务,这不仅提高了效率,也为机器人在更多领域的应用打开了大门。当然,安全问题仍然是我们需要关注的重点。只有在确保安全的前提下,我们才能真正享受到AI机器人带来的便利。