在大型语言模型(LLM)发展速度明显放缓的背景下,全球顶级人工智能公司正将目光投向一个全新的领域——世界模型(World Models)。这些系统旨在通过学习视频和机器人数据来理解和导航物理世界,而非仅仅处理语言信息。谷歌DeepMind、Meta和英伟达等行业巨头正在竞相投入资源,希望在这一新兴赛道上取得领先地位,推动AI向更具实质性的物理世界智能迈进。
从语言到物理:AI发展的新方向
"世界模型是AI领域的一次重要范式转变,"英伟达Omniverse和仿真技术副总裁Rev Lebaredian表示,"它将AI从纯粹的数字领域扩展到物理世界,这可能会开启一个规模几乎与全球经济相当的市场机会。"
Lebaredian预测,如果能够创造出能够理解并操作物理世界的智能系统,其潜在市场规模可能达到"100万亿美元"。这一乐观预测反映了行业对世界模型技术潜力的巨大期待。
世界模型通过学习真实或模拟环境的数据流进行训练,被视为推动自动驾驶汽车、机器人和所谓AI代理进步的重要步骤。然而,这类模型需要海量数据和计算能力进行训练,目前仍被视为一项未解决的技术挑战。
LLM发展放缓,世界模型迎来机遇
近年来,尽管OpenAI、谷歌和埃隆·马斯克的xAI等公司投入巨资开发大型语言模型,但这些模型之间的性能提升速度正在放缓。这一现象促使AI公司将注意力转向替代性技术路径。
"AI目前仍然非常局限于数字领域,"谷歌DeepMind的Genie 3项目联合负责人Shlomi Fruchter表示,"通过构建看起来或行为类似真实世界的环境,我们可以找到更可扩展的方式来训练AI,而无需在现实世界中犯错带来的实际后果。"
这种对LLM局限性的认识正在推动行业向世界模型方向转变。Meta首席AI科学家Yann LeCun——被誉为现代AI"教父"之一——一直是最新的世界模型架构的积极倡导者,他警告称LLM永远无法获得人类那样的推理和规划能力。
主要科技公司的世界模型布局
谷歌DeepMind:Genie 3的突破
谷歌DeepMind上月预览了Genie 3,这是一种能够逐帧生成视频并考虑过去交互的模型。此前的视频生成模型通常一次性创建整个视频,而不是逐步构建。
Genie 3代表了视频生成技术的重要进步,它能够更好地理解场景中的动态变化,为创建更逼真的虚拟环境提供了可能。
Meta:V-JEPA与儿童学习模式
Meta正尝试通过观察周围世界来被动学习的方式,模仿儿童的学习过程。其Facebook人工智能研究(Fair)实验室在6月发布了模型的第二个版本,该实验室由LeCun领导,专注于长期AI项目。
Meta的V-JEPA模型在原始视频内容上进行训练,目前已在机器人测试中应用。尽管LeCun大力倡导世界模型架构,但Meta首席执行官扎克伯格最近增加了对顶尖AI人才的投入,精英团队正致力于在下一代Llama LLM模型上取得突破。
英伟达:Omniverse与物理AI
英伟达正通过其Omniverse平台创建和运行模拟,支持这家4.3万亿美元科技巨头向机器人领域扩张。英伟达首席执行官黄仁坚断言,公司下一个主要增长阶段将随着"物理AI"的到来而来,新模型将彻底改变机器人领域。
英伟达的Lebaredian表示,世界模型"为服务所有其他行业打开了机会,放大了计算机对知识工作所做的同样事情"。
世界模型的实际应用场景
娱乐产业:沉浸式体验的创造者
世界模型在娱乐行业的一个近期应用是创建互动和逼真的场景。由AI先驱李飞飞创立的初创公司World Labs正在开发一种能够从单张图像生成类似视频游戏的3D环境的模型。
视频生成初创公司Runway与包括狮门影业在内的好莱坞工作室有合作关系,上月推出了一款使用世界模型创建游戏场景的产品,能够实时生成个性化的故事和角色。
"传统视频方法是一种像素生成的蛮力方法,你试图在几帧中塞入动作来创造运动的错觉,但模型实际上并不真正了解或推理场景中发生的事情,"Runway首席执行官Cristóbal Valenzuela表示。
他补充说,先前的视频生成模型的物理规律与真实世界不同,而通用世界模型系统有助于解决这一问题。
自动驾驶与机器人:物理世界的导航者
世界模型在自动驾驶和机器人领域具有巨大潜力。这些系统需要理解物理世界的规则和动态,才能在复杂环境中安全有效地运行。
旧金山公司Niantic已经绘制了1000万个地点,通过包括《Pokémon Go》在内的游戏收集信息,该游戏拥有3000万月活跃玩家,他们与全球地图互动。
Niantic运营《Pokémon Go》九年,即使在6月将游戏出售给总部位于美国的Scopely后,其玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。
"我们在解决这个问题上有一个良好的起点,"Niantic Spatial(Scopely交易后公司的新名称)首席执行官John Hanke表示。
技术挑战与未来展望
尽管世界模型前景广阔,但构建这些系统面临着重大挑战。公司需要收集大量关于物理世界的数据,同时处理这些数据所需的计算资源也是巨大的。
"世界模型'打开机会服务所有其他行业,放大了计算机对知识工作所做的同样事情,"英伟达的Lebaredian表示。
Meta的LeCun等人表示,这种新一代AI系统为机器提供人类水平智能的愿景可能需要10年才能实现。然而,AI专家认为,尖端技术的潜在范围是广泛的。
世界模型不仅可能改变我们与技术互动的方式,还可能开辟全新的经济机会,从制造业到医疗保健,从教育到娱乐,几乎每个行业都可能受到影响。
随着越来越多的资源投入到这一领域,我们可以期待看到世界模型技术的快速进步,以及它们如何重塑我们与物理世界互动的方式。这场AI竞赛的新篇章正在展开,而世界模型无疑是其中的关键角色。