世界模型崛起:AI巨头如何突破语言模型的瓶颈

1

在人工智能领域,一场静默的革命正在悄然发生。随着大语言模型(LLM)的发展速度逐渐放缓,谷歌DeepMind、Meta和英伟达等科技巨头正将目光投向一个全新的方向——世界模型(World Models)。这些系统不再局限于文本和语言的边界,而是试图通过学习视频和机器人数据来理解和导航物理世界,为人工智能的发展开辟了全新的可能性。

大语言模型的瓶颈与局限

近年来,大语言模型的发展似乎遇到了难以逾越的障碍。尽管OpenAI的ChatGPT、谷歌的Gemini以及埃隆·马斯克的xAI等公司投入了巨额资金进行研发,但模型之间的性能提升差距正在逐渐缩小。这种进步放缓的现象引发了业界对AI发展方向的深刻思考。

"AI仍然在很大程度上局限于数字领域,"谷歌DeepMind的Genie 3项目联合负责人Shlomi Fruchter表示。这一局限性使得当前AI系统难以真正理解和应对物理世界的复杂性,也限制了其在实际应用中的潜力。

世界模型:AI发展的新方向

世界模型是一种通过学习真实或模拟环境的数据流来训练的AI系统。与主要依赖文本数据的大语言模型不同,世界模型能够理解和处理视觉、空间和物理交互信息,从而实现更接近人类的智能表现。

英伟达Omniverse和模拟技术副总裁Rev Lebaredian预测,世界模型可能创造一个规模接近全球经济的市场机会。"如果我们能够创造出能够理解物理世界并在其中运作的智能,世界基础模型的机会基本上是100万亿美元,"他强调道。

科技巨头的战略布局

谷歌DeepMind:Genie 3的突破

谷歌DeepMind在上个月预览了其最新的世界模型Genie 3,该模型能够逐帧生成视频,并考虑过去的交互历史。与传统的视频生成模型一次性创建整个视频不同,Genie 3采用逐步构建的方式,更接近人类对动态场景的理解过程。

"通过构建看起来或行为类似真实世界的环境,我们可以有更可扩展的方式来训练AI,而无需在现实世界中犯错的实际后果,"Fruchter解释道。

Meta:从V-JEPA到Llama的双重战略

Meta正在尝试复制儿童通过被动观察学习世界的方式,其V-JEPA模型在原始视频内容上进行训练。由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究(Fair)实验室在6月发布了该模型的第二个版本,并在机器人上进行了测试。

Meta AI研究

LeCun作为现代AI的"教父"之一,一直是新架构最坚定的倡导者,他警告说LLM永远无法实现人类般的推理和规划能力。然而,Meta首席执行官马克·扎克伯格最近增加了对顶尖AI人才的投入,组建精英团队致力于在下一代Llama LLM模型上取得突破。

英伟达:物理AI的愿景

英伟达首席执行官黄仁勋断言,公司的下一个主要增长阶段将随着"物理AI"的到来而来,这些新模型将彻底改变机器人领域。英伟达的Omniverse平台创建并运行此类模拟,协助这家4.3万亿美元科技巨头向机器人领域扩张,并建立在电子游戏中模拟真实环境的长期历史基础上。

世界模型的应用前景

娱乐行业的革新

世界模型在娱乐行业有着近期的应用前景,能够创建互动和逼真的场景。由AI先驱李飞飞创立的World Labs正在开发一种模型,可以从单张图像生成类似视频游戏的3D环境。

与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway上月推出了一款产品,使用世界模型创建游戏场景,实时生成个性化故事和角色。

"传统视频方法是对像素生成的蛮力方法,你试图在几帧中挤压动作来创造运动的错觉,但模型实际上并不真正知道或推理场景中发生了什么,"Runway首席执行官Cristóbal Valenzuela表示。

实际产业的应用

世界模型正在开始改变多个实际产业:

  1. 制造业:通过模拟生产环境和流程,优化生产线和减少资源浪费
  2. 医疗保健:创建患者和医疗环境的精确模型,辅助诊断和治疗规划
  3. 交通运输:改善自动驾驶系统的环境感知和决策能力
  4. 城市规划:模拟城市发展和交通流量,优化基础设施规划

数据与计算挑战

构建世界模型面临的最大挑战之一是获取和处理海量物理数据。旧金山的Niantic已经绘制了1000万个地点,通过《Pokémon Go》等游戏收集信息,该游戏拥有3000万月活跃玩家,与全球地图进行互动。

Niantic地图数据

Niantic首席执行官John Hanke表示:"我们在这个问题上有一个良好的开端。"即使在6月将游戏出售给总部位于美国的Scopely后,Niantic的玩家仍然通过扫描公共地标贡献匿名数据,帮助构建其世界模型。

然而,世界模型不仅需要大量数据,还需要巨大的计算能力。训练这些模型被视为一个尚未解决的技术挑战,需要业界持续的创新和突破。

未来展望

Meta的LeCun等人表示,这种新一代AI系统为机器提供人类水平智能的愿景可能需要10年时间才能实现。但AI专家认为,这项尖端技术的潜在范围是广泛的。

"世界模型'开辟了服务所有其他行业的机会,放大了计算机对知识工作所做的同样事情,"英伟达的Lebaredian指出。

随着AI巨头们持续投入资源,世界模型有望在未来几年内取得重大进展,逐步缩小数字世界与物理世界之间的差距。这不仅将推动AI技术本身的发展,还将深刻改变我们与机器交互的方式,以及机器理解和影响我们周围环境的能力。

结语

世界模型的兴起标志着AI发展进入了一个新阶段——从纯粹的语言和符号处理,向更加全面的环境理解和物理交互能力转变。这一转变虽然面临技术和资源上的巨大挑战,但其潜在回报也是巨大的。随着谷歌DeepMind、Meta和英伟达等科技巨头的持续投入,我们有理由期待,在不久的将来,AI系统将能够更好地理解和融入我们的物理世界,为人类社会带来前所未有的变革和机遇。