世界模型崛起:当AI语言发展遇阻,科技巨头转向物理世界智能

1

在大型语言模型(LLM)发展速度逐渐放缓的背景下,全球顶级人工智能公司正将目光投向一个全新的领域——世界模型(world models)。这种创新技术旨在让AI系统理解和导航物理世界,而非仅仅处理语言数据。Google DeepMind、Meta和Nvidia等科技巨头正竞相投入资源,希望在这一新兴领域取得突破,推动AI向更高级的'超级智能'迈进。

LLM发展遇阻

近年来,以OpenAI的ChatGPT为代表的大型语言模型取得了显著进展,但这些技术似乎正面临发展瓶颈。尽管OpenAI、Google和埃隆·马斯克的xAI等公司投入巨资开发LLM,但模型性能之间的提升幅度正在减小。

这一现象促使AI研究者们开始探索替代路径,世界模型应运而生。与仅处理文本数据的LLM不同,世界模型通过学习视频和机器人数据来理解和模拟物理世界,为AI发展提供了新的可能性。

世界模型的市场潜力

Nvidia的Omniverse和模拟技术副总裁Rev Lebaredian指出,世界模型的潜在市场几乎相当于全球经济规模,约为100万亿美元。这一数字反映了将AI技术引入物理领域——如制造业和医疗保健行业——的巨大商业价值。

"世界基础模型的机会是什么?本质上,如果我们能创造出能够理解物理世界并在其中运作的智能,那就是100万亿美元,"Lebaredian表示。

技术挑战与突破

世界模型的训练需要大量真实或模拟环境的数据流,被视为推动自动驾驶汽车、机器人和所谓AI代理发展的重要一步。然而,这些模型需要海量数据和计算能力进行训练,仍被视为一项未解决的技术挑战。

尽管如此,过去几个月中,多家AI组织已在世界模型领域取得了一系列进展。

Google DeepMind的Genie 3

上月,Google DeepMind预览了Genie 3,这是一种逐帧生成视频并考虑过去交互的模型。与以往通常一次性生成整个视频的模型不同,Genie 3采用逐步生成的方式。

"AI仍然很大程度上局限于数字领域,"Google DeepMind的Genie 3联合负责人Shlomi Fruchter表示。"通过构建看起来或行为类似于真实世界的环境,我们可以有更可扩展的方式来训练AI...而无需在现实世界中犯错的真实后果。"

Meta的V-JEPA模型

Meta正尝试复制儿童通过被动观察周围世界进行学习的方式,其Facebook人工智能研究(Fair)实验室在原始视频内容上训练V-JEPA模型。该实验室由Meta首席AI科学家Yann LeCun领导,专注于长期AI项目,并于6月发布了模型的第二个版本,已在机器人上进行了测试。

LeCun被誉为现代AI的"教父之一",一直是最积极倡导这种新架构的人士之一,他警告称LLM永远无法获得像人类一样的推理和规划能力。

尽管如此,Meta首席执行官马克·扎克伯格最近已增加对顶尖AI人才的投入,一个精英团队正致力于在其下一个Llama LLM模型上取得突破。这包括雇佣数据标注集团Scale AI的创始人Alexandr Wang负责Meta的所有AI工作,LeCun现在向Wang汇报。

应用场景拓展

世界模型的近期应用之一是娱乐行业,在那里它们可以创建互动和逼真的场景。由AI先驱李飞飞创立的初创公司World Labs正在开发一种模型,可以从单个图像生成类似视频游戏的3D环境。

与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway,上月推出了一款使用世界模型创建游戏场景的产品,可实时生成个性化故事和角色。

"传统视频方法是对像素生成的蛮力方法,你试图在几帧中挤压动作来创造运动的错觉,但模型实际上并不真正知道或推理场景中发生了什么,"Runway首席执行官Cristóbal Valenzuela表示。

他补充说,先前的视频生成模型的物理特性与真实世界不同,而通用世界模型系统有助于解决这一问题。

数据收集与模型构建

构建这些模型需要收集大量关于物理世界的数据。

总部位于旧金山的Niantic已经绘制了1000万个地点,通过包括《Pokémon Go》在内的游戏收集信息,该游戏有3000万月度玩家与全球地图互动。

Niantic运营《Pokémon Go》九年,即使在6月将游戏出售给总部位于美国的Scopely后,其玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。

"我们在这个问题上有一个良好的开端,"Niantic Spatial(Scopely交易后公司的新名称)首席执行官John Hanke表示。

Niantic和Nvidia都在通过让世界模型生成或预测环境来填补空白。Nvidia的Omniverse平台创建和运行此类模拟,协助这家4.3万亿美元科技巨头向机器人领域发展,并建立在视频游戏中模拟真实环境的悠久历史基础上。

Nvidia首席执行官黄仁坚断言,公司下一个主要增长阶段将随着'物理AI'的到来而来,新模型将彻底改变机器人领域。

未来展望

包括Meta的LeCun在内的一些人表示,这种新一代AI系统为机器提供人类水平智能的愿景可能需要10年才能实现。

但根据AI专家的说法,尖端技术的潜在范围是广泛的。Nvidia的Lebaredian表示,世界模型'为服务所有其他行业打开了机会,并放大了计算机对知识工作所做的相同事情'。

随着世界模型技术的不断发展和完善,我们有理由相信,AI将不再局限于数字世界,而是能够真正理解和融入我们的物理环境,为人类社会带来前所未有的变革和机遇。这一转变不仅将重塑AI技术的发展方向,也将深刻影响我们与智能系统互动的方式,开启一个全新的智能时代。