当大型语言模型(LLM)的发展速度开始放缓,全球顶尖的人工智能公司正将目光投向一个全新的前沿领域——世界模型。这些系统旨在通过学习视频和机器人数据来理解和导航物理世界,而不仅仅局限于语言处理。谷歌DeepMind、Meta和Nvidia等科技巨头正投入巨资研发这一技术,希望借此在AI竞赛中取得领先优势。
LLM发展瓶颈:AI巨头寻找新突破口
近年来,尽管OpenAI、谷歌和埃隆·马斯克的xAI等公司投入巨额资金开发大型语言模型,但这些模型之间的性能提升速度正在放缓。这一现象促使AI行业重新思考技术发展方向,寻找能够推动AI向"超级智能"迈进的新路径。
"AI目前仍然很大程度上局限于数字领域,"谷歌DeepMind的Genie 3项目联合负责人Shlomi Fruchter表示,"通过构建看起来或行为类似于真实世界的环境,我们可以找到更具扩展性的方式来训练AI,而无需在现实世界中犯错造成真实后果。"
世界模型的兴起恰好回应了这一需求。这些系统通过真实或模拟环境的数据流进行训练,被视为推动自动驾驶汽车、机器人和所谓AI代理发展的重要一步。然而,它们需要大量数据和计算能力进行训练,并被认为是一个尚未解决的技术挑战。
巨头布局:世界模型的研发进展
过去几个月,多家AI公司相继公布了世界模型领域的多项进展,显示出这一领域日益增长的重要性。
Google DeepMind的Genie 3
上月,谷歌DeepMind预览了Genie 3模型,该模型能够逐帧生成视频,并考虑过去的交互。与传统一次性生成整个视频的模型不同,Genie 3采用逐步生成的方式,更接近人类的视觉感知过程。
"AI目前仍然很大程度上局限于数字领域,"Fruchter解释道,"通过构建看起来或行为类似于真实世界的环境,我们可以找到更具扩展性的方式来训练AI...无需在现实世界中犯错造成真实后果。"
Meta的V-JEPA模型
Meta正尝试模拟儿童通过被动观察周围世界进行学习的方式,利用原始视频内容训练其V-JEPA模型。由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究(Fair)实验室于6月发布了该模型的第二个版本,并已在机器人上进行了测试。
LeCun被誉为现代AI的"教父"之一,是新架构最坚定的倡导者之一。他警告称,大型语言模型永远无法实现人类那样的推理和规划能力。
值得注意的是,尽管LeCun对世界模型寄予厚望,但Meta首席执行官马克·扎克伯格最近已增加对顶尖AI人才的投入,一个精英团队正在努力推动其下一代Llama语言模型的突破。这包括雇佣数据标注公司Scale AI创始人Alexandr Wang负责Meta的所有AI工作,LeCun现在向Wang汇报。
Niantic的现实世界数据收集
要构建这些模型,公司需要收集大量关于物理世界的数据。总部位于旧金山的Niantic已经绘制了1000万个地点,通过其拥有3000万月活跃玩家的《Pokémon Go》等游戏收集信息。
Niantic运营《Pokémon Go》九年,即使在6月将游戏出售给总部位于美国的Scopely后,其玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。
"我们在解决这个问题上有一个良好的开端,"Niantic Spatial(Scopely交易后公司的新名称)首席执行官John Hanke表示。
应用前景:从娱乐到制造业的全面变革
世界模型的潜在应用前景极为广阔,从娱乐行业到制造业和医疗保健等多个领域都可能因此发生变革。
娱乐行业的创新
世界模型在娱乐行业的应用已经初见成效。由AI先驱李飞飞创立的初创公司World Labs正在开发一种能够从单张图像生成游戏般3D环境的模型。
与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway上月推出了一款使用世界模型创建游戏场景的产品,能够实时生成个性化故事和角色。
"传统视频方法是一种强制性的像素生成方法,你试图在几帧中挤压动作来创造运动的错觉,但模型实际上并不真正了解或推理场景中发生的事情,"Runway首席执行官Cristóbal Valenzuela表示。
他补充说,先前的视频生成模型的物理规律与真实世界不同,而通用世界模型系统有助于解决这一问题。
工业与医疗领域的潜力
Nvidia副总裁Rev Lebaredian指出,世界模型的市场潜力巨大,几乎可与全球经济规模相媲美,因为它将技术引入制造业和医疗保健等物理领域。
"世界基础模型的机会是什么?基本上...如果我们能创造出一种能够理解物理世界并在其中运作的智能,那就是100万亿美元,"他说。
Nvidia的Omniverse平台创建并运行此类模拟,协助这家4.3万亿美元科技巨头向机器人领域迈进,并建立在视频游戏中模拟现实环境的长期历史基础上。
Nvidia首席执行官黄仁勋已断言,公司的下一个主要增长阶段将伴随着"物理AI"的到来,新模型将彻底改变机器人领域。
技术挑战与未来展望
尽管世界模型展现出巨大潜力,但要实现其全部愿景仍面临诸多挑战。Meta的LeCun等人表示,这种新一代AI系统为机器提供人类级别智能的愿景可能需要10年时间才能实现。
然而,AI专家认为,尖端技术的潜在范围极为广泛。Nvidia的Lebaredian表示,世界模型"为服务所有其他行业打开了机会,并放大了计算机对知识工作所做的同样事情。"
随着技术的不断进步,世界模型有望成为AI发展的重要方向,推动人工智能从数字世界走向物理世界,实现更广泛的应用和更深层次的理解。这一转变不仅将重塑AI行业格局,还将对人类社会产生深远影响。