谷歌 Gemini Robotics On-Device:开启机器人自主新纪元

2

在机器人技术领域,谷歌的DeepMind再次引领创新,推出了名为“Gemini Robotics On-Device”的全新AI模型。这项技术突破的核心在于实现了机器人的人工智能本地化,摆脱了对云计算的依赖,为机器人带来了前所未有的自主性和可靠性。这意味着未来的机器人将能够在各种复杂和具有挑战性的环境中独立运行,无需持续的网络连接,从而极大地拓展了它们的应用场景。

Gemini Robotics On-Device:开启机器人自主新纪元

一直以来,人工智能在机器人领域的应用都面临着一个关键的瓶颈:对云计算的依赖。传统的机器人AI模型通常需要在云端进行大量的计算和数据处理,这不仅限制了机器人的响应速度,也使其在网络连接不稳定或无法连接的环境中难以正常工作。而谷歌DeepMind的Gemini Robotics On-Device则彻底改变了这一现状。通过将AI模型直接部署在机器人设备上,实现了本地化的AI处理,从而使机器人能够更加快速、可靠地执行任务。

据谷歌DeepMind机器人部门负责人Carolina Parada介绍,Gemini Robotics On-Device是首个开发者可以根据特定用途进行调整的谷歌机器人模型版本。这种灵活性使得开发者能够针对不同的应用场景,对模型进行定制化训练和优化,从而最大程度地提升机器人的性能和效率。

通用机器人,无需云端

此前的Gemini Robotics版本采用了混合系统,即机器人上运行一个小型模型,而大型模型则在云端运行。虽然这种混合模式在一定程度上提高了机器人的智能化水平,但仍然无法避免因网络延迟而导致的问题。而现在,谷歌DeepMind推出了独立的VLA(视觉语言动作)模型,本地模型实现了快速适应,而基于服务器的模型可以帮助完成复杂的推理任务。谷歌DeepMind现在正在发布本地模型,作为一个独立的VLA,它出人意料地强大。

据Parada称,新设备上的Gemini Robotics模型只比混合版本稍逊一筹,许多任务都可以直接完成。“当我们和机器人一起玩耍时,我们发现它们出人意料地能够理解新的情况,”Parada告诉Ars。

通过发布包含完整SDK的这个模型,该团队希望开发者能够赋予Gemini驱动的机器人新的任务,并向它们展示新的环境,这可能会揭示出与模型库存调整不符的动作。借助SDK,机器人技术研究人员只需50到100个演示就可以使VLA适应新的任务。

机器人技术面临的独特挑战

机器人技术与传统AI应用的不同之处在于,机器人不仅需要理解和分析外部世界的信息,还需要与物理世界进行交互,并对环境产生实际的影响。无论是移动物体还是系鞋带,机器人都需要精确地感知和预测各种可能的情况,并做出相应的动作。传统的强化学习方法在训练机器人方面存在效率低下的问题,而生成式AI的出现为解决这一难题带来了新的希望。

Carolina Parada解释说:“它是利用Gemini的多模态世界理解能力来完成一项全新的任务。正如Gemini可以生成文本、创作诗歌、总结文章一样,它也可以编写代码、生成图像,甚至生成机器人的动作。”

Robotics On-Device chart

本地AI的优势与局限

Gemini Robotics On-Device的推出,无疑为机器人技术的发展带来了巨大的推动力。本地AI处理不仅提高了机器人的响应速度和可靠性,还降低了对网络连接的依赖,使其能够在更广泛的环境中应用。例如,在偏远地区、灾难现场或网络受限的场所,搭载Gemini Robotics On-Device的机器人可以独立执行搜索、救援、维修等任务,为人们提供及时的帮助。

此外,本地AI处理还有助于保护用户隐私。由于数据不再需要上传到云端进行处理,用户的个人信息和敏感数据可以得到更好的保护,从而降低了数据泄露的风险。

然而,Gemini Robotics On-Device也存在一定的局限性。由于受到硬件资源的限制,本地AI模型的计算能力和存储容量相对有限,可能无法处理过于复杂的任务。此外,本地AI模型的训练和更新也需要一定的技术支持和维护。

Parada解释说,AI机器人技术中的“演示”与其他AI研究领域略有不同。演示通常包括远程操作机器人——手动控制机械完成任务,从而调整模型以自主处理该任务。虽然合成数据是谷歌训练的一个要素,但它不能替代真实数据。“我们仍然发现在最复杂、最灵巧的行为中,我们需要真实的数据,”Parada说。“但是,你可以通过模拟做很多事情。”

但是,这些高度复杂的行为可能超出了设备上VLA的能力。它应该可以轻松完成诸如系鞋带(传统上对AI机器人来说很困难的任务)或折叠衬衫之类的简单动作。但是,如果您想让机器人为您制作三明治,则可能需要更强大的模型来完成将面包放在正确位置所需的多步骤推理。

该团队认为Gemini Robotics On-Device非常适合连接到云的网络不稳定或不存在的环境。在本地处理机器人的视觉数据也更有利于隐私,例如在医疗保健环境中。

安全第一:构建可靠的机器人系统

安全性是所有AI系统都需要关注的重要问题,尤其是在涉及到物理世界的机器人领域。一旦机器人出现故障或受到恶意攻击,可能会对人类造成伤害或财产损失。因此,在开发和部署Gemini Robotics On-Device时,谷歌DeepMind将安全性放在首位,采取了多层次的安全保障措施。

Parada说:“使用完整的Gemini Robotics,您可以连接到一个正在推理什么是安全的模型。然后,您让它与VLA对话,VLA实际产生选项,然后VLA调用低级控制器,后者通常具有安全关键组件,例如您可以移动多少力或可以多快地移动此手臂。”

重要的是,新的设备上模型只是一个VLA,因此开发人员需要自己构建安全性。谷歌建议他们复制Gemini团队所做的工作。建议早期测试人员计划中的开发人员将系统连接到标准的Gemini Live API,其中包括安全层。他们还应该为关键安全检查实施低级控制器。

谷歌建议开发人员复制Gemini团队的做法,将系统连接到标准的Gemini Live API,并实施低级控制器进行关键安全检查。这种多层次的安全保障体系,可以最大程度地降低机器人发生意外或被滥用的风险,确保其在各种环境中的安全可靠运行。

开放合作:共同推动机器人技术发展

为了加速Gemini Robotics On-Device的推广和应用,谷歌DeepMind计划将其开放给更多的开发者和研究人员。通过提供完整的SDK和技术文档,谷歌DeepMind希望能够吸引更多的合作伙伴加入到机器人技术的研究和开发中来,共同推动机器人技术的创新和发展。

任何有兴趣测试Gemini Robotics On-Device的人都应该申请访问谷歌的可信测试人员计划。谷歌的Carolina Parada说,在过去三年里,机器人技术已经取得了很大的突破,而这仅仅是个开始——目前发布的Gemini Robotics仍然基于Gemini 2.0。Parada指出,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5已被认为是聊天机器人功能的巨大改进。也许机器人也是如此。

Apollo robot

未来展望:机器人技术的无限可能

随着人工智能技术的不断发展,机器人技术正在迎来前所未有的发展机遇。Gemini Robotics On-Device的推出,不仅为机器人带来了更高的自主性和可靠性,也为其在更广泛领域的应用奠定了基础。未来,我们可以期待看到更多的机器人走进我们的生活,为我们提供各种各样的服务和帮助。

例如,在智能家居领域,机器人可以帮助我们打理家务、照顾老人和孩子;在医疗领域,机器人可以进行手术、康复治疗和药物配送;在工业领域,机器人可以承担高危、高强度的工作,提高生产效率和安全性;在农业领域,机器人可以进行播种、收割和病虫害防治;在航空航天领域,机器人可以进行太空探索和星球探测。

总之,机器人技术的未来充满了无限可能。随着技术的不断进步和应用场景的不断拓展,机器人将会在我们的生活中扮演越来越重要的角色,为我们创造更加美好的未来。