AI巨头转向世界模型:当语言模型发展遇阻,物理世界成新战场

1

在人工智能领域,一场悄无声息的革命正在发生。随着大型语言模型(LLM)的发展速度逐渐放缓,谷歌DeepMind、Meta和英伟达等顶级AI公司正将大量资金投入"世界模型"的研发。这些系统通过学习视频和机器人数据来导航物理世界,被视为实现机器"超级智能"的关键路径。

语言模型遭遇天花板

近年来,大型语言模型的发展一直是AI领域的焦点。从OpenAI的ChatGPT到谷歌的Bard,再到埃隆·马斯克的xAI,各大公司投入巨额资金研发这一技术。然而,最新迹象表明,这些模型在性能提升方面正面临瓶颈,进步速度明显放缓。

"大型语言模型是否已达到发展上限的疑问正在增多,"行业分析师指出,"尽管各公司在这些模型上投入了巨额资金,但模型之间的性能飞跃正在减小。"

这一现状促使AI巨头们开始寻找新的技术突破口,而"世界模型"成为了他们的首选方向。与传统语言模型专注于理解和生成文本不同,世界模型致力于让AI系统理解和操作物理世界。

世界模型:AI的下一个前沿

世界模型是一种通过学习视频和机器人数据来导航物理环境的AI系统。它们使用真实或模拟环境的数据流进行训练,被视为推动自动驾驶汽车、机器人和所谓"AI代理"发展的重要一步。

"传统上,AI仍然非常局限于数字领域,"谷歌DeepMind的Genie 3项目联合负责人Shlomi Fruchter表示,"通过构建看起来或行为类似真实世界的环境,我们可以有更可扩展的方式来训练AI...而在现实世界中犯错的实际后果。"

英伟达Omniverse和模拟技术副总裁Rev Lebaredian预测,世界模型的市场潜力巨大,几乎相当于全球经济规模。"世界基础模型的机会是什么?本质上...如果我们能创造出一种能够理解物理世界并在物理世界中运作的智能,那就是100万亿美元。"

技术突破与公司布局

过去几个月,几家AI公司已陆续推出了一系列世界模型方面的进展,标志着这一领域正迎来快速发展期。

谷歌DeepMind的Genie 3

上月,谷歌DeepMind预览了Genie 3,该模型可以逐帧生成视频并考虑过去的交互。传统的视频生成模型通常一次性创建整个视频,而不是逐步生成。

"Genie 3代表了视频生成技术的重大飞跃,"技术评论家指出,"通过逐帧生成并考虑上下文,这些模型能够创建更加连贯和逼真的视频内容。"

Meta的V-JEPA模型

Meta则试图通过被动观察周围世界的方式复制儿童的学习过程,在其原始视频内容上训练V-JEPA模型。

由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究(Fair)实验室于6月发布了该模型的第二个版本,并在机器人上进行了测试。LeCun被誉为现代AI的"教父"之一,一直是这种新架构最直言不讳的支持者,他警告说LLM永远无法获得像人类一样的推理和规划能力。

有趣的是,尽管LeCun大力倡导世界模型,但Meta首席执行官马克·扎克伯格最近已增加对顶尖AI人才的投入,一个精英团队正努力在其下一个Llama LLM模型上取得突破。这包括雇佣数据标注公司Scale AI的创始人Alexandr Wang负责Meta的所有AI工作,LeCun现在向Wang汇报。

Niantic的物理世界数据收集

要构建这些模型,公司需要收集大量关于物理世界的数据。总部位于旧金山的Niantic已经绘制了1000万个地点,通过包括拥有3000万月活跃玩家的《Pokémon Go》在内的游戏收集信息。

Niantic运营《Pokémon Go》九年,即使在6月将游戏出售给总部位于美国的Scopely后,其玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。

"我们在解决这个问题方面已经有了良好的开端,"Niantic Spatial(该公司在Scopely交易后更名)的首席执行官John Hanke表示。

应用前景与行业变革

世界模型的应用前景广阔,从娱乐行业到制造业、医疗保健等多个领域都可能迎来变革。

娱乐行业的创新

在娱乐行业,世界模型可以创建互动和逼真的场景。由AI先驱李飞飞创立的World Labs正在开发一种模型,可以从单个图像生成类似视频游戏的3D环境。

与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway上月推出了一款产品,使用世界模型创建游戏场景,实时生成个性化故事和角色。

"传统视频方法是一种像素生成的蛮力方法,你试图在几帧中挤压动作来创造运动的错觉,但模型实际上并不真正知道或推理场景中发生的事情,"Runway的首席执行官Cristóbal Valenzuela表示。

他补充说,之前的视频生成模型具有与真实世界不同的物理特性,而通用世界模型系统有助于解决这个问题。

工业与医疗领域的潜力

在工业领域,世界模型可以彻底改变产品设计、测试和制造过程。通过创建逼真的虚拟环境,工程师可以在数字孪生中测试产品,大大减少物理原型的需要。

在医疗保健领域,世界模型可以用于手术模拟、药物开发和个性化治疗规划。医生可以在虚拟环境中练习复杂手术,而研究人员可以模拟药物在人体内的作用。

"世界模型为服务所有这些其他行业打开了机会,放大了计算机对知识工作所做的同样事情,"英伟达的Lebaredian表示。

技术挑战与未来展望

尽管世界模型前景广阔,但要实现其潜力仍面临巨大挑战。这些模型需要海量数据和计算能力进行训练,并被认为是一个尚未解决的技术难题。

"这一领域的进展将取决于几个关键因素,"AI研究专家指出,"包括计算能力的提升、更高效的算法开发、以及大规模高质量数据集的获取。"

Meta的LeCun等人表示,这种新一代AI系统为机器提供人类水平智能的愿景可能需要10年时间才能实现。然而,随着越来越多的公司投入资源,这一时间表可能会缩短。

英伟达首席执行官黄仁坚已断言,公司的下一个主要增长阶段将随着"物理AI"的到来而来,新模型将彻底改变机器人领域。

结论

随着大型语言模型发展速度放缓,AI巨头正将目光投向世界模型这一新兴领域。通过让AI系统理解和操作物理世界,这些模型有望彻底改变从娱乐到工业的多个行业,并可能开启AI发展的新篇章。

尽管技术挑战巨大,但谷歌DeepMind、Meta和英伟达等公司的最新进展已显示出这一领域的巨大潜力。随着更多资源的投入和技术的进步,世界模型可能成为实现真正通用人工智能的关键一步,为人类社会带来前所未有的变革。