在机器人技术领域,谷歌的DeepMind再次带来了令人瞩目的创新。他们推出了一种全新的设备端视觉语言行动(VLA)模型,该模型无需依赖云计算,即可实现机器人的自主运行。这一突破性的技术,被命名为“Gemini Robotics On-Device”,预示着机器人技术发展的新方向。
Gemini Robotics On-Device:无需云端的自主能力
长期以来,机器人技术的发展受到云计算的限制。传统的机器人需要依赖强大的云端服务器进行数据处理和决策,这不仅增加了成本,还降低了机器人的响应速度和可靠性。然而,谷歌DeepMind的Gemini Robotics On-Device模型改变了这一现状。该模型允许机器人在本地设备上进行所有计算,无需与云端进行通信,从而实现了真正的自主运行。
谷歌DeepMind机器人部门负责人Carolina Parada表示,这种本地化的AI机器人技术,将使机器人在复杂和具有挑战性的环境中更加可靠。与之前的版本不同,新模型允许开发者根据特定需求进行调整,为机器人技术的应用提供了更大的灵活性。
通用机器人与生成式AI的融合
机器人技术面临的一大挑战是,机器人所处的物理世界是动态变化的,难以预测。传统的强化学习方法训练机器人行动非常缓慢,而生成式AI的出现为解决这一问题提供了新的思路。
Carolina Parada解释说,Gemini Robotics On-Device模型利用Gemini的多模态世界理解能力,可以完成全新的任务。就像Gemini可以生成文本、创作诗歌或总结文章一样,它也可以生成代码和图像,甚至生成机器人行动。
本地模型的强大功能
在之前的Gemini Robotics版本中,机器人运行的是一种混合系统,即机器人上运行一个小型模型,而云端运行一个大型模型。然而,这种混合系统存在响应延迟的问题。机器人需要快速响应环境变化,而云端处理需要时间。本地模型则可以实现快速适应,而服务器模型则可以处理复杂的推理任务。
现在,谷歌DeepMind将本地模型作为一个独立的VLA发布,其性能令人惊讶。Parada表示,许多任务都可以直接完成。在实际测试中,他们发现机器人能够很好地理解新情况。
通过发布包含完整SDK的本地模型,谷歌希望开发者能够赋予Gemini机器人新的任务,并将其置于新的环境中,从而发现模型在现有调整下无法完成的动作。借助SDK,机器人研究人员只需50到100个演示,即可使VLA适应新任务。
演示与真实数据的价值
在AI机器人技术中,“演示”的概念与其他AI研究领域有所不同。Parada解释说,演示通常涉及远程操作机器人,即手动控制机器人完成任务,从而调整模型以自主处理该任务。虽然合成数据是谷歌训练的一部分,但它不能替代真实数据。Parada强调,在最复杂、最灵巧的行为中,他们仍然需要真实数据。当然,模拟在机器人训练中也发挥着重要作用。
本地VLA的能力边界
虽然本地VLA在许多任务中表现出色,但它也有其局限性。对于简单的动作,如系鞋带或叠衬衫,本地VLA可以轻松完成。但是,对于需要多步骤推理的任务,如制作三明治,则可能需要更强大的模型。
谷歌团队认为,Gemini Robotics On-Device模型非常适合在云连接不稳定或不存在的环境中使用。在本地处理机器人的视觉数据也有利于保护隐私,例如在医疗保健环境中。
构建安全的机器人
安全性是AI系统面临的重要问题。生成式AI聊天机器人和图像生成器可能会产生虚假信息,而驱动Gemini Robotics的生成式系统也不例外。当机器人拥有了物理形态,并配备了冰冷的金属抓手时,安全性问题变得更加棘手。
为了确保机器人的安全行为,Gemini Robotics采用了一种多层方法。Parada表示,完整的Gemini Robotics连接到一个推理模型,该模型会判断什么是安全的。然后,该模型与VLA通信,VLA生成操作选项,并调用一个低级控制器,该控制器通常具有安全关键组件,例如可以移动多少力或可以多快地移动手臂。
重要的是,新的设备端模型只是一个VLA,因此开发者需要自行构建安全性。谷歌建议开发者复制Gemini团队的做法,即将系统连接到包含安全层的标准Gemini Live API,并为关键安全检查实施低级控制器。
未来展望
谷歌的Carolina Parada表示,过去三年机器人技术取得了许多突破,而这仅仅是个开始。目前的Gemini Robotics版本仍然基于Gemini 2.0。Parada指出,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5在聊天机器人功能方面已被认为是一次巨大的改进。也许机器人也会如此。
Gemini Robotics On-Device的推出,标志着机器人技术发展的一个重要里程碑。它不仅使机器人能够独立于云端运行,还为开发者提供了更大的灵活性和控制权。随着技术的不断发展,我们有理由相信,未来的机器人将更加智能、安全和可靠,并在各个领域发挥更大的作用。
安全性:不容忽视的关键
在追求机器人技术进步的同时,安全性问题必须得到高度重视。无论是防止机器人做出危险行为,还是保护用户隐私,都需要采取有效的措施。谷歌在Gemini Robotics中采用的多层安全方法,为我们提供了一个有益的参考。然而,开发者在实际应用中,还需要根据具体情况进行调整和完善,确保机器人的安全可靠运行。
开发者生态:推动机器人技术创新的引擎
谷歌通过发布包含完整SDK的本地模型,积极构建开发者生态。这一举措将吸引更多的开发者参与到机器人技术的创新中来,推动机器人技术的快速发展。开发者可以利用SDK,为Gemini机器人赋予新的任务,并将其置于新的环境中,从而不断拓展机器人的应用领域。
数据驱动:提升机器人性能的关键
数据是AI模型训练的基础。在机器人技术中,真实数据的价值尤为突出。虽然合成数据可以用于初步训练,但要使机器人真正掌握复杂、灵巧的行为,还需要大量的真实数据。因此,如何获取、处理和利用真实数据,是机器人技术发展面临的重要挑战。
应用场景:无限可能
Gemini Robotics On-Device模型的应用场景非常广泛。在制造业中,它可以用于自动化生产线,提高生产效率和质量。在医疗保健领域,它可以用于辅助诊断和治疗,减轻医护人员的负担。在家庭服务中,它可以用于清洁、烹饪和照顾老人,提高生活质量。随着技术的不断发展,我们可以期待机器人将在更多领域发挥重要作用。
结论:开启机器人技术的新篇章
谷歌DeepMind的Gemini Robotics On-Device模型,是一项具有里程碑意义的创新。它不仅使机器人能够独立于云端运行,还为开发者提供了更大的灵活性和控制权。随着技术的不断发展和应用,我们有理由相信,机器人技术将迎来更加美好的未来。