在科技领域,尤其是人工智能(AI)和机器人技术的交叉点上,我们正目睹着一场深刻的变革。谷歌的最新创新——无需云端支持即可运行的机器人AI,预示着机器人技术发展的新方向。这项技术不仅提升了机器人的自主性,还在安全性、隐私保护以及应用场景的扩展方面带来了诸多可能性。
Gemini Robotics:自主机器人的新篇章
谷歌DeepMind推出的Gemini Robotics,代表了AI在机器人控制领域的一大步。与以往依赖云端计算的机器人不同,新发布的设备端VLA(视觉语言动作)模型赋予了机器人完全的自主性。这意味着机器人不再需要持续的网络连接,便能在各种复杂环境中执行任务,从而提高了其在实际应用中的可靠性。
谷歌DeepMind机器人部门负责人Carolina Parada指出,这种自主AI机器人技术能够增强机器人在复杂环境中的可靠性。更重要的是,这是首个允许开发者针对特定用途进行调整的谷歌机器人模型。
在机器人技术中,AI面临的挑战是独特的。机器人不仅存在于物理世界中,还需要与环境互动并改变环境。无论是移动物体还是系鞋带,预测机器人可能遇到的所有情况都非常困难。传统的强化学习方法训练机器人行动非常缓慢,但生成式AI的出现,使得机器人能够更好地泛化。
Parada解释说:“它利用了Gemini对多模态世界的理解,从而完成全新的任务。就像Gemini可以生成文本、创作诗歌或总结文章一样,它也可以编写代码和生成图像,甚至生成机器人行动。”
通用机器人:摆脱云端束缚
之前的Gemini Robotics版本采用混合系统,即机器人在本地运行一个小型模型,同时依赖云端运行一个大型模型。我们经常看到聊天机器人在生成输出时需要“思考”几秒钟,但机器人需要快速反应。如果让机器人拿起并移动一个物体,我们不希望它在每个步骤的生成过程中都停顿。本地模型可以实现快速适应,而服务器模型可以协助完成复杂的推理任务。现在,谷歌DeepMind将本地模型作为一个独立的VLA发布,其稳健性令人惊讶。
据Parada介绍,新的Gemini Robotics On-Device模型的准确性仅略低于混合版本。许多任务都可以直接完成。“当我们与机器人互动时,我们发现它们在理解新情况方面表现出色,”Parada说。
通过发布包含完整SDK的该模型,谷歌团队希望开发者能够赋予Gemini驱动的机器人新的任务,并展示新的环境,从而揭示该模型的默认设置下无法正常执行的动作。借助SDK,机器人研究人员只需50到100个演示,就能够使VLA适应新的任务。
AI机器人技术中的“演示”与AI研究的其他领域略有不同。Parada解释说,演示通常涉及远程操作机器人——手动控制机器完成任务,从而调整模型以自主处理该任务。虽然合成数据是谷歌训练的一个要素,但它不能取代真实数据。“我们仍然发现在最复杂、最灵巧的行为中,我们需要真实数据,”Parada说。“但是,你可以通过模拟做很多事情。”
不过,这些高度复杂的行为可能超出了设备端VLA的能力范围。对于诸如系鞋带(传统上对于AI机器人来说是一项艰巨的任务)或叠衬衫之类的简单动作,它应该没有问题。但是,如果你想让机器人为你制作三明治,它可能需要一个更强大的模型来完成将面包放在正确位置所需的多步骤推理。
对于那些云连接不稳定或不存在的环境,Gemini Robotics On-Device堪称理想之选。在本地处理机器人的视觉数据也更有利于隐私保护,例如在医疗保健环境中。
构建安全的机器人
无论是提供危险信息的聊天机器人,还是变成终结者的机器人,安全始终是AI系统的一个重要考量因素。我们都见过生成式AI聊天机器人和图像生成器在其输出中产生虚假信息,而驱动Gemini Robotics的生成式系统也不例外——模型并非每次都能正确运行,但赋予模型一个具有冰冷、无情金属抓手的物理形态,会使问题变得更加棘手。
为了确保机器人安全运行,Gemini Robotics采用了一种多层方法。“使用完整的Gemini Robotics,你将连接到一个能够推理出什么是安全行为的模型,”Parada说。“然后,让它与一个VLA对话,后者会生成选项,然后该VLA会调用一个低级控制器,后者通常具有安全关键组件,例如你可以移动多少力或可以多快地移动此手臂。”
重要的是,新的设备端模型只是一个VLA,因此开发人员需要自行构建安全性。不过,谷歌建议他们复制Gemini团队所做的工作。建议早期测试人员计划中的开发人员将系统连接到标准的Gemini Live API,其中包括一个安全层。他们还应该为关键安全检查实施一个低级控制器。
任何有兴趣测试Gemini Robotics On-Device的人都应该申请访问谷歌的信任测试人员计划。谷歌的Carolina Parada表示,过去三年中,机器人技术取得了许多突破,而这仅仅是个开始——当前版本的Gemini Robotics仍然基于Gemini 2.0。Parada指出,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5已被认为是聊天机器人功能的巨大改进。也许机器人也是如此。
技术解析与未来展望
谷歌的这项创新不仅仅是一项技术突破,更代表了机器人技术发展理念的转变。从依赖云端到实现完全自主,这一转变解决了实际应用中的诸多痛点,并为未来的发展开辟了新的可能性。
自主性与可靠性:通过将AI模型直接部署在机器人设备上,机器人不再依赖于稳定的网络连接。这意味着在网络覆盖不佳或需要快速响应的场景中,机器人也能可靠地执行任务。例如,在灾难救援、野外勘探等环境中,自主机器人能够独立完成任务,大大提高了工作效率和安全性。
隐私保护:在医疗、家庭服务等涉及敏感数据的应用场景中,本地处理数据可以有效保护用户隐私。数据不再需要上传到云端进行处理,降低了数据泄露的风险,符合日益严格的隐私保护法规。
定制化与灵活性:谷歌开放了SDK,允许开发者根据特定需求定制机器人行为。这意味着机器人可以更快地适应新的任务和环境,从而扩展了其应用范围。例如,在制造业中,可以根据生产线的具体需求,快速调整机器人的动作和策略,提高生产效率。
多层次安全保障:谷歌强调安全是机器人技术的核心。通过多层次的安全机制,包括高级别的安全策略、VLA的动作规划以及低级别的安全控制器,确保机器人在执行任务时的安全性。这种安全设计理念为整个行业树立了标杆。
技术迭代与未来潜力:Gemini Robotics的持续迭代,预示着机器人技术将迎来更大的突破。随着AI模型的不断优化和硬件性能的提升,未来的机器人将更加智能、灵活和安全。我们可以期待,机器人将在更多领域发挥重要作用,例如智能家居、医疗健康、工业自动化等。
案例分析:自主机器人在医疗领域的应用
设想一个应用场景:在一家大型医院中,物流机器人负责在各个科室之间运送药品、病历和医疗器械。传统的物流机器人需要依赖中央控制系统和稳定的网络连接,一旦网络出现故障,整个物流系统就会瘫痪。而采用Gemini Robotics On-Device技术的物流机器人,可以在本地自主规划路线、避开障碍物,即使在网络中断的情况下也能继续执行任务。
此外,这种机器人还可以配备传感器,实时监测环境温湿度、空气质量等参数,并将数据上传到云端,为医院提供环境监测服务。更重要的是,由于数据在本地处理,患者的隐私信息得到了有效保护,避免了数据泄露的风险。
结论
谷歌的Gemini Robotics On-Device技术是机器人技术发展的一个重要里程碑。它不仅提升了机器人的自主性和可靠性,还在隐私保护和安全性方面带来了诸多优势。随着技术的不断进步和应用场景的不断拓展,我们有理由相信,自主机器人将在未来的社会中扮演越来越重要的角色。