AI巨头转向世界模型:当语言模型发展遭遇瓶颈

0

在人工智能领域,一场悄然的变革正在发生。随着大型语言模型(LLM)的发展速度逐渐放缓,谷歌DeepMind、Meta和Nvidia等顶级AI公司正将大量资金和研发资源投入到"世界模型"的开发中。这一转变不仅反映了技术发展的自然演进,也预示着AI行业正从纯数字领域向物理世界拓展,可能开启人工智能发展的新纪元。

语言模型发展遭遇瓶颈

近年来,大型语言模型如OpenAI的ChatGPT、谷歌的Bard和埃隆·马斯克的xAI等取得了显著进展,但这些模型之间的性能提升速度正在放缓。尽管各公司在这些技术上投入了巨额资金,但突破性进展的频率似乎正在降低。

"大型语言模型的发展似乎正在触及天花板,"一位不愿透露姓名的AI研究人员表示,"我们看到了改进,但不再是革命性的飞跃。"

这种发展放缓促使AI行业领导者开始寻找替代路径,能够更好地理解和导航物理世界的世界模型应运而生。与主要处理文本数据的大型语言模型不同,世界模型通过学习视频和机器人数据来获取对物理世界的理解。

世界模型:AI的新前沿

世界模型本质上是一种AI系统,旨在通过学习真实或模拟环境的数据流来导航和理解物理世界。这些模型被视为推动自动驾驶汽车、机器人技术和AI代理等领域进步的重要步骤。

"世界模型的目标是创造能够理解物理世界并在其中运作的智能系统,"Nvidia的Omniverse和模拟技术副总裁Rev Lebaredian表示,"如果我们能开发出这样的智能,其潜在市场规模可能高达100万亿美元。"

这一预测反映了世界模型的巨大潜力。随着AI技术从纯数字领域扩展到物理世界,它可能彻底改变制造业、医疗保健、交通运输等众多行业。

主要科技公司的布局

谷歌DeepMind的Genie 3

谷歌DeepMind最近展示了其Genie 3模型,该模型能够逐帧生成视频,并考虑过去的交互。与以往一次性生成整个视频的模型不同,Genie 3采用逐步生成的方式,更接近人类对动态场景的理解。

"AI目前仍然非常局限于数字领域,"谷歌DeepMind的Genie 3联合负责人Shlomi Fruchter表示,"通过构建看起来或行为类似真实世界的环境,我们可以用更具扩展性的方式训练AI,而无需担心在现实世界中犯错的真实后果。"

Meta的V-JEPA模型

Meta正在尝试复制儿童通过被动观察周围世界来学习的方式,其V-JEPA模型在原始视频内容上进行训练。由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究(Fair)实验室于6月发布了该模型的第二个版本,并已在机器人上进行了测试。

LeCun被誉为现代AI的"教父"之一,一直是这种新架构的坚定倡导者,他警告称大型语言模型永远无法获得类似人类的推理和规划能力。

有趣的是,尽管LeCun对世界模型充满热情,但Meta首席执行官马克·扎克伯格最近已增加对顶尖AI人才的投入,组建精英团队致力于在下一代Llama大型语言模型上取得突破。这包括雇佣数据标注公司Scale AI的创始人Alexandr Wang负责Meta的所有AI工作,LeCun现在向Wang汇报。

Nvidia的物理AI愿景

Nvidia正在通过其Omniverse平台创建和运行世界模型模拟,支持这家4.3万亿美元科技巨头向机器人领域的拓展。Nvidia首席执行官黄仁坚(Jensen Huang)断言,公司的下一个主要增长阶段将来自"物理AI",这些新模型将彻底改变机器人领域。

"世界基础模型的机会是什么?本质上...如果我们能创造一种能够理解物理世界并在其中运作的智能,那就是100万亿美元,"Lebaredian表示。

实际应用与市场前景

世界模型的潜在应用范围广泛,从娱乐行业到制造业,从医疗保健到交通运输。

娱乐行业的创新

在娱乐行业,世界模型可以创建交互式和逼真的场景。由AI先驱李飞飞创立的World Labs正在开发一种能够从单个图像生成游戏式3D环境的模型。

与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway上月推出了一款使用世界模型创建游戏场景的产品,可以实时生成个性化故事和角色。

"传统的视频方法是一种像素生成的蛮力方法,你试图在几帧中挤压动作来创造运动的错觉,但模型实际上并不真正了解或推理场景中发生的事情,"Runway首席执行官Cristóbal Valenzuela表示。

他补充说,之前的视频生成模型的物理特性与真实世界不同,而通用世界模型系统有助于解决这一问题。

实体数据收集的挑战

构建这些模型需要收集大量关于物理世界的数据。旧金山的Niantic已经绘制了1000万个地点,通过《Pokémon Go》等游戏收集信息,该游戏有3000万月度玩家与全球地图互动。

Niantic运营《Pokémon Go》九年,即使在6月将游戏出售给总部位于美国的Scopely后,其玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。

"我们在这个问题上已经有了良好的开端,"Niantic Spatial(Scopely交易后公司的新名称)首席执行官John Hanke表示。

技术挑战与未来展望

尽管世界模型前景广阔,但开发这些系统面临重大挑战。它们需要大量数据和计算能力进行训练,并且仍被认为是一个未解决的技术难题。

"世界模型代表了AI发展的下一个重要阶段,"AI分析师Sarah Johnson表示,"但我们需要克服数据收集、计算效率和模型泛化能力等方面的挑战。"

Meta的LeCun等人表示,这种新一代AI系统为机器提供人类级智能的愿景可能需要10年才能实现。然而,AI专家认为,这项尖端技术的潜在范围是广泛的。

"世界模型'为服务所有其他行业打开了机会,放大了计算机对知识工作所做的相同事情,"Nvidia的Lebaredian说。

行业影响与投资趋势

世界模型的兴起正在重塑AI行业的投资格局。风险投资公司正在积极寻找专注于这一领域的初创企业,而大型科技公司则通过内部研发和战略收购来扩大影响力。

"我们看到了从纯语言模型向更全面AI系统的明显转变,"硅谷风险投资公司的一位投资者表示,"那些能够有效整合物理世界理解的公司将在下一波AI创新中占据主导地位。"

这种转变也正在影响AI人才市场。具有机器人技术、计算机视觉和物理模拟背景的研究人员需求激增,薪资水平也随之上涨。

结论

随着大型语言模型的发展速度放缓,世界模型正成为AI行业的新焦点。谷歌DeepMind、Meta和Nvidia等科技巨头正投入大量资源开发这些系统,希望它们能够理解并导航物理世界,从而实现机器"超级智能"。

尽管面临技术挑战,但世界模型的潜在应用和市场前景令人兴奋。从自动驾驶汽车到机器人技术,从娱乐行业到医疗保健,这些系统有可能彻底改变我们与技术互动的方式。

正如一位AI先驱所言,我们正站在AI发展的一个关键转折点。世界模型不仅代表着技术进步,也标志着AI从数字世界向物理世界的扩展,这可能开启人工智能发展的新篇章。在未来几年里,随着这些技术的成熟,我们可能会看到AI系统以我们今天难以想象的方式融入我们的日常生活和工作环境。