世界模型:AI巨头突破语言局限的物理世界探索

2

在人工智能领域发展的关键转折点上,全球顶级AI公司正将巨额资金和研发资源投向一个新兴方向——世界模型。这一技术转向标志着AI研究从纯语言处理向理解和导航物理世界的重大跨越,为机器'超级智能'的实现开辟了新路径。

语言模型的瓶颈与转向

近年来,大型语言模型(LLM)的发展一直是AI领域的焦点。OpenAI的ChatGPT、Google的Gemini以及埃隆·马斯克的xAI等公司推出的语言模型不断刷新性能记录,然而,这一领域的技术进步正呈现出放缓趋势。尽管各公司投入巨资进行研发,但模型之间的性能提升差距正在缩小,引发了业界对LLM发展是否已触及天花板的担忧。

"AI仍然很大程度上局限于数字领域,"Google DeepMind的Genie 3项目联合负责人Shlomi Fruchter表示。这一局限性促使科技巨头们寻求突破,将AI能力扩展到物理世界。

世界模型的崛起

世界模型(World Models)是一种旨在通过学习视频和机器人数据来理解和导航物理环境的AI系统。与主要处理文本和语言数据的大型语言模型不同,世界模型专注于构建对现实世界的认知框架,使AI系统能够像人类一样感知、理解和与物理环境互动。

"通过构建看起来或行为类似于真实世界的环境,我们可以有更可扩展的方式来训练AI...而在现实世界中犯错的真实后果,"Fruchter解释道。这种训练方法不仅更安全,而且能够大幅扩展AI的学习范围。

巨头竞相布局

Google DeepMind、Meta和Nvidia等科技巨头已在这一领域展开激烈竞争,各自推出具有创新性的世界模型系统。

Google DeepMind的Genie 3

Google DeepMind上月预览了Genie 3模型,该模型能够逐帧生成视频,并考虑过去的交互历史。与传统一次性生成整个视频的模型不同,Genie 3采用逐步生成的方式,更接近人类的认知过程。

Genie 3模型演示

Meta的V-JEPA模型

Meta则试图模拟儿童通过被动观察学习世界的方式,利用原始视频内容训练其V-JEPA模型。由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究(Fair)实验室于6月发布了该模型的第二个版本,并在机器人上进行了测试。

LeCun作为现代AI的"教父"之一,一直是这种新架构的坚定支持者,他警告称LLM永远无法获得人类般的推理和规划能力。

然而,Meta首席执行官马克·扎克伯格最近已增加对顶尖AI人才的投入,组建精英团队致力于在下一代Llama LLM模型上取得突破。这包括雇佣数据标注公司Scale AI创始人Alexandr Wang领导Meta的所有AI工作,LeCun现在向Wang汇报。

Nvidia的Omniverse平台

Nvidia副总裁Rev Lebaredian预测,世界基础模型的潜在市场可能巨大,几乎相当于全球经济规模,因为它将技术引入制造业和医疗保健等物理领域。

"世界基础模型的机会是什么?基本上...如果我们能创造出能够理解物理世界并在其中运作的智能,那就是100万亿美元。"

Nvidia的Omniverse平台创建和运行此类模拟,协助这家4.3万亿美元科技巨头向机器人领域推进,并建立在视频游戏中模拟真实环境的长期历史基础上。

Nvidia首席执行官黄仁坚断言,公司的下一个主要增长阶段将随着"物理AI"的到来而来,新模型将彻底改变机器人领域。

应用场景与市场潜力

世界模型的潜在应用范围广泛,从近期的娱乐产业到长期的通用人工智能(AGI)实现。

娱乐产业的创新

在娱乐行业,世界模型可以创建互动和逼真的场景。由AI先驱李飞飞创立的初创公司World Labs正在开发一种能够从单张图像生成游戏般3D环境的模型。

与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway上月推出了一款使用世界模型创建游戏场景的产品,可实时生成个性化故事和角色。

"传统的视频方法是像素生成的蛮力方法,你试图在几帧中挤压运动来创造运动的错觉,但模型实际上并不真正了解或推理场景中发生的事情,"Runway首席执行官Cristóbal Valenzuela表示。

他补充说,之前的视频生成模型的物理规律与真实世界不同,而通用世界模型系统有助于解决这一问题。

实体经济的变革

世界模型对实体经济的潜在影响更为深远。Niantic已映射了1000万个地点,通过《Pokémon Go》等游戏收集信息,该游戏有3000万月活跃玩家与全球地图互动。

即使在6月将游戏出售给总部位于美国的Scopely后,Niantic(现更名为Niantic Spatial)的玩家仍然通过扫描公共地标贡献匿名数据,帮助构建其世界模型。

"我们在这个问题上有一个良好的起点,"Niantic Spatial首席执行官John Hanke表示。

Niantic和Nvidia都在通过让世界模型生成或预测环境来填补空白。Nvidia的Omniverse平台创建和运行此类模拟,协助这家4.3万亿美元科技巨头向机器人领域推进。

技术挑战与未来展望

尽管前景广阔,但世界模型的开发面临诸多挑战。构建这些模型需要收集大量关于物理世界的数据,并消耗巨大的计算资源训练。

"世界模型仍被视为一个未解决的技术挑战,"行业分析师指出。"它们需要海量数据和计算能力,但回报可能是革命性的。"

Meta的LeCun等人表示,这种新一代AI系统为机器提供人类级智能的愿景可能需要10年时间才能实现。然而,AI专家认为,这项尖端技术的潜在范围是广泛的。

"世界模型'为服务所有其他行业打开了机会,并放大了计算机对知识工作所做的相同事情,"Nvidia的Lebaredian表示。

结语

世界模型的兴起标志着AI研究的一个重要转折点,从纯数字领域向物理世界的拓展。随着LLM发展放缓,科技巨头正将目光投向这一可能开启人工智能发展新纪元的技术方向。尽管面临诸多挑战,但世界模型在自动驾驶、机器人、娱乐等领域的初步应用已展现出巨大潜力,其潜在市场规模可能高达100万亿美元。

在未来的AI竞赛中,谁能率先突破世界模型的技术瓶颈,谁就可能掌握通往机器'超级智能'的关键钥匙,引领人工智能发展的下一个浪潮。