在人工智能领域,一场静默的革命正在悄然发生。随着大语言模型(LLM)的发展速度逐渐放缓,谷歌DeepMind、Meta和英伟达等科技巨头正将目光投向一个全新的方向——世界模型(World Models)。这些系统不再局限于文本和语言的边界,而是试图通过学习视频和机器人数据来理解和导航物理世界,为人工智能的发展开辟了全新的可能性。
大语言模型的瓶颈与局限
近年来,大语言模型的发展似乎遇到了难以逾越的障碍。尽管OpenAI的ChatGPT、谷歌的Gemini以及埃隆·马斯克的xAI等公司投入了巨额资金进行研发,但模型之间的性能提升差距正在逐渐缩小。这种进步放缓的现象引发了业界对AI发展方向的深刻思考。
"AI仍然在很大程度上局限于数字领域,"谷歌DeepMind的Genie 3项目联合负责人Shlomi Fruchter表示。这一局限性使得当前AI系统难以真正理解和应对物理世界的复杂性,也限制了其在实际应用中的潜力。
世界模型:AI发展的新方向
世界模型是一种通过学习真实或模拟环境的数据流来训练的AI系统。与主要依赖文本数据的大语言模型不同,世界模型能够理解和处理视觉、空间和物理交互信息,从而实现更接近人类的智能表现。
英伟达Omniverse和模拟技术副总裁Rev Lebaredian预测,世界模型可能创造一个规模接近全球经济的市场机会。"如果我们能够创造出能够理解物理世界并在其中运作的智能,世界基础模型的机会基本上是100万亿美元,"他强调道。
科技巨头的战略布局
谷歌DeepMind:Genie 3的突破
谷歌DeepMind在上个月预览了其最新的世界模型Genie 3,该模型能够逐帧生成视频,并考虑过去的交互历史。与传统的视频生成模型一次性创建整个视频不同,Genie 3采用逐步构建的方式,更接近人类对动态场景的理解过程。
"通过构建看起来或行为类似真实世界的环境,我们可以有更可扩展的方式来训练AI,而无需在现实世界中犯错的实际后果,"Fruchter解释道。
Meta:从V-JEPA到Llama的双重战略
Meta正在尝试复制儿童通过被动观察学习世界的方式,其V-JEPA模型在原始视频内容上进行训练。由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究(Fair)实验室在6月发布了该模型的第二个版本,并在机器人上进行了测试。
LeCun作为现代AI的"教父"之一,一直是新架构最坚定的倡导者,他警告说LLM永远无法实现人类般的推理和规划能力。然而,Meta首席执行官马克·扎克伯格最近增加了对顶尖AI人才的投入,组建精英团队致力于在下一代Llama LLM模型上取得突破。
英伟达:物理AI的愿景
英伟达首席执行官黄仁勋断言,公司的下一个主要增长阶段将随着"物理AI"的到来而来,这些新模型将彻底改变机器人领域。英伟达的Omniverse平台创建并运行此类模拟,协助这家4.3万亿美元科技巨头向机器人领域扩张,并建立在电子游戏中模拟真实环境的长期历史基础上。
世界模型的应用前景
娱乐行业的革新
世界模型在娱乐行业有着近期的应用前景,能够创建互动和逼真的场景。由AI先驱李飞飞创立的World Labs正在开发一种模型,可以从单张图像生成类似视频游戏的3D环境。
与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway上月推出了一款产品,使用世界模型创建游戏场景,实时生成个性化故事和角色。
"传统视频方法是对像素生成的蛮力方法,你试图在几帧中挤压动作来创造运动的错觉,但模型实际上并不真正知道或推理场景中发生了什么,"Runway首席执行官Cristóbal Valenzuela表示。
实际产业的应用
世界模型正在开始改变多个实际产业:
- 制造业:通过模拟生产环境和流程,优化生产线和减少资源浪费
- 医疗保健:创建患者和医疗环境的精确模型,辅助诊断和治疗规划
- 交通运输:改善自动驾驶系统的环境感知和决策能力
- 城市规划:模拟城市发展和交通流量,优化基础设施规划
数据与计算挑战
构建世界模型面临的最大挑战之一是获取和处理海量物理数据。旧金山的Niantic已经绘制了1000万个地点,通过《Pokémon Go》等游戏收集信息,该游戏拥有3000万月活跃玩家,与全球地图进行互动。
Niantic首席执行官John Hanke表示:"我们在这个问题上有一个良好的开端。"即使在6月将游戏出售给总部位于美国的Scopely后,Niantic的玩家仍然通过扫描公共地标贡献匿名数据,帮助构建其世界模型。
然而,世界模型不仅需要大量数据,还需要巨大的计算能力。训练这些模型被视为一个尚未解决的技术挑战,需要业界持续的创新和突破。
未来展望
Meta的LeCun等人表示,这种新一代AI系统为机器提供人类水平智能的愿景可能需要10年时间才能实现。但AI专家认为,这项尖端技术的潜在范围是广泛的。
"世界模型'开辟了服务所有其他行业的机会,放大了计算机对知识工作所做的同样事情,"英伟达的Lebaredian指出。
随着AI巨头们持续投入资源,世界模型有望在未来几年内取得重大进展,逐步缩小数字世界与物理世界之间的差距。这不仅将推动AI技术本身的发展,还将深刻改变我们与机器交互的方式,以及机器理解和影响我们周围环境的能力。
结语
世界模型的兴起标志着AI发展进入了一个新阶段——从纯粹的语言和符号处理,向更加全面的环境理解和物理交互能力转变。这一转变虽然面临技术和资源上的巨大挑战,但其潜在回报也是巨大的。随着谷歌DeepMind、Meta和英伟达等科技巨头的持续投入,我们有理由期待,在不久的将来,AI系统将能够更好地理解和融入我们的物理世界,为人类社会带来前所未有的变革和机遇。