人工智能领域正经历一场深刻变革。随着大型语言模型(LLM)的发展速度逐渐放缓,谷歌DeepMind、Meta和英伟达等科技巨头正将目光投向一个全新的方向——世界模型(World Models)。这些系统旨在通过学习视频和机器人数据来理解和导航物理世界,而非仅局限于语言理解,标志着AI技术从纯数字领域向物理世界的重要拓展。
LLM发展遭遇瓶颈
过去几年,大型语言模型如OpenAI的ChatGPT、谷歌的Bard和埃隆·马斯克的xAI等产品取得了显著突破,但近期行业内的共识是,这些模型在性能提升方面的步伐正在放缓。尽管各家公司投入巨资进行研发,但LLM之间的性能差距正在逐渐缩小,这促使AI研究者们开始探索新的技术路径。
"大型语言模型是否已达到发展上限?"这个问题正在业界引发广泛讨论。正如Meta首席AI科学家杨立昆(Yann LeCun)所言,当前的LLM在推理和规划能力上仍存在根本性局限,难以实现人类级别的智能。
世界模型:AI的下一个前沿
世界模型是一种通过学习真实或模拟环境的数据流来训练的AI系统,它们能够理解和预测物理世界的运作方式。与主要处理文本数据的LLM不同,世界模型专注于视觉、空间关系和物理交互,这使它们在自动驾驶汽车、机器人技术和所谓的AI代理等领域具有巨大潜力。
英伟达Omniverse和仿真技术副总裁雷夫·莱巴里迪安(Rev Lebaredian)指出:"世界基础模型的机会有多大?基本上...如果我们能创造一种能够理解物理世界并在其中运作的智能,那就是100万亿美元。"
这一预测并非空穴来风。随着世界模型技术进入制造业、医疗保健等物理领域,其潜在市场规模几乎可与全球经济总量相媲美。
技术突破与应用前景
谷歌DeepMind的Genie 3
上月,谷歌DeepMind预览了Genie 3模型,这是一个能够逐帧生成视频并考虑过去交互的系统。与以往一次性生成整个视频的模型不同,Genie 3采用逐步生成的方式,更接近人类的视觉感知过程。
谷歌DeepMind的Genie 3联合负责人什洛米·弗鲁克特(Shlomi Fruchter)表示:"AI仍然在很大程度上局限于数字领域。通过构建看起来或行为类似于真实世界的环境,我们可以有更可扩展的方式来训练AI...而在现实世界中犯错的真实后果。"
Meta的V-JEPA模型
Meta则试图模拟儿童通过被动观察周围世界进行学习的方式,其V-JEPA模型在原始视频内容上进行训练。由Meta首席AI科学家杨立昆领导的Facebook人工智能研究(Fair)实验室于6月发布了该模型的第二个版本,并在机器人上进行了测试。
杨立昆作为现代AI领域的"教父"之一,一直是这种新架构的最有力倡导者,他警告称LLM永远无法实现人类级别的推理和规划能力。
值得注意的是,尽管Meta在大力投资世界模型,但其首席执行官马克·扎克伯格最近也增加了对顶尖AI人才的投入,组建精英团队致力于在下一代Llama LLM模型上取得突破。这包括雇佣数据标注公司Scale AI的创始人亚历山大·王(Alexandr Wang)负责Meta的所有AI工作,杨立昆现在向王汇报。
游戏与娱乐产业的应用
世界模型在娱乐行业的近期应用尤为引人注目。它们能够创建互动且逼真的场景,为游戏和影视制作带来革命性变化。
由AI先驱李飞飞创立的World Labs正在开发一种能够从单张图像生成类似视频游戏的3D环境的模型。与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway上月推出了一款使用世界模型创建游戏场景的产品,能够实时生成个性化故事和角色。
Runway首席执行官克里斯托瓦尔·巴伦苏埃拉(Cristóbal Valenzuela)表示:"传统的视频方法是像素生成的蛮力方法,你试图在几帧中挤出动作来创造运动的错觉,但模型实际上并不真正知道或推理场景中发生的事情。"他补充说,之前的视频生成模型的物理特性与真实世界不同,而通用世界模型系统有助于解决这一问题。
数据与计算挑战
构建世界模型面临的最大挑战之一是获取大量物理世界数据。旧金山的Niantic公司已经绘制了1000万个地点,通过包括《Pokémon Go》在内的游戏收集信息,该游戏拥有3000万月活跃玩家,他们与全球地图进行互动。
Niantic运营《Pokémon Go》九年,即使在6月将游戏出售给总部位于美国的Scopely公司后,其玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。
Niantic Spatial(Scopely交易后公司的新名称)首席执行官约翰·汉克(John Hanke)表示:"我们在这个问题上有一个良好的开端。"
生成与预测能力
Niantic和英伟达都在通过让世界模型生成或预测环境来填补数据空白。英伟达的Omniverse平台创建并运行此类模拟,协助这家4.3万亿美元科技巨头向机器人领域迈进,并建立在视频游戏中模拟现实环境的悠久历史基础上。
英伟达首席执行官黄仁勋(Jensen Huang)断言,公司下一个主要增长阶段将随着"物理AI"的到来而来,这些新模型将彻底改变机器人领域。
未来展望
杨立昆等专家认为,这种新一代AI系统为机器提供人类级智能的愿景可能需要10年时间才能实现。但AI专家表示,尖端技术的潜在范围是广泛的。
英伟达的莱巴里迪安表示:"世界模型'为服务所有其他行业打开了机会,并放大了计算机对知识工作所做的同样事情。"
随着各大科技公司持续投入资源,世界模型很可能成为AI发展的下一个重要里程碑,推动人工智能从数字世界走向物理世界,最终实现更加通用和强大的智能系统。