在大型语言模型(LLM)的发展速度明显放缓的背景下,全球顶尖的人工智能企业正将战略重心转向所谓的'世界模型'技术,这一转变标志着AI领域正在经历一场深刻的范式转移。Google DeepMind、Meta和Nvidia等科技巨头纷纷投入巨资,开发能够理解和导航物理世界的新一代AI系统,这些系统通过学习视频和机器人数据,而非仅仅依赖语言数据,试图突破当前AI技术的局限性。
LLM发展遭遇瓶颈
近年来,尽管OpenAI、Google和埃隆·马斯克的xAI等公司投入巨额资金开发大型语言模型,但这些模型之间的性能提升幅度正在明显减小。这一现象引发了业界对于LLM技术是否已触及发展天花板的担忧。正如行业专家所指出的,单纯依靠扩大模型规模和训练数据的方式正面临边际效益递减的挑战。
'AI仍然在很大程度上局限于数字领域,'Google DeepMind的Genie 3项目联合负责人Shlomi Fruchter表示。这一局限性促使研究人员开始探索新的技术路径,使AI系统能够更好地理解和与物理世界互动。
世界模型的崛起
世界模型是一种通过学习真实或模拟环境的数据流来训练的AI系统,被视为推动自动驾驶汽车、机器人和所谓AI代理发展的重要一步。与主要处理文本数据的LLM不同,世界模型专注于理解和模拟物理世界的运作方式。
Nvidia的Omniverse和模拟技术副总裁Rev Lebaredian预测,世界模型潜在的市场规模可能'几乎与全球经济规模相当'。他强调:'如果我们能够创造出能够理解物理世界并在其中运作的智能,那么世界基础模型的机会基本上是100万亿美元。'
这一乐观预测反映了业界对世界模型技术潜力的巨大期待,特别是在制造业和医疗保健等将技术引入物理领域的行业。
技术突破与进展
过去几个月,多家AI研究机构相继展示了世界模型领域的重大进展,这些突破正推动着这一新兴领域的发展。
Google DeepMind的Genie 3
上月,Google DeepMind预览了Genie 3模型,该模型能够逐帧生成视频,并考虑过去的交互情况。此前的视频生成模型通常一次性创建整个视频,而非逐步构建。这一创新使AI系统能够更好地理解和模拟动态环境中的物体和行为。
'通过构建看起来或行为类似于真实世界的环境,我们可以有更多可扩展的方式来训练AI,而无需在现实世界中犯错的真实后果,'Fruchter解释道。
Meta的V-JEPA模型
Meta则试图通过被动观察周围世界的方式,模拟儿童的学习过程。该公司在其Facebook人工智能研究(Fair)实验室领导的V-JEPA模型上,使用原始视频内容进行训练。该实验室由Meta首席AI科学家Yann LeCun领导,专注于长期AI项目。
LeCun被誉为现代AI的'教父'之一,一直是这种新架构最直言不讳的支持者,他警告称LLM永远无法实现人类那样的推理和规划能力。尽管如此,Meta首席执行官马克·扎克伯格最近已增加对顶尖AI人才的投入,一个精英团队正在努力推动其下一个Llama LLM模型的突破。
Niantic的物理世界数据
为了构建这些模型,公司需要收集大量关于物理世界的真实数据。总部位于旧金山的Niantic已经绘制了1000万个地点,通过《Pokémon Go》等游戏收集信息,该游戏拥有3000万月度玩家,他们与全球地图互动。
Niantic运营《Pokémon Go》九年,即使在6月将游戏出售给总部位于美国的Scopely后,其玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。'我们在这个问题上有一个良好的开端,'Niantic Spatial(该公司在Scopely交易后的新名称)首席执行官John Hanke表示。
行业应用前景
世界模型的潜在应用范围广泛,从娱乐行业到制造业,再到医疗保健领域,正在多个行业引发变革。
娱乐产业的革新
在娱乐行业,世界模型能够创建交互式和逼真的场景,这一应用已开始显现。由AI先驱李飞飞创立的World Labs正在开发一种模型,可以从单张图像生成类似视频游戏的3D环境。
与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway,上月推出了一款使用世界模型创建游戏场景的产品,能够实时生成个性化故事和角色。
'传统视频方法是一种像素生成的蛮力方法,你试图在几帧中挤压动作来创造运动的错觉,但模型实际上并不真正知道或推理场景中发生了什么,'Runway首席执行官Cristóbal Valenzuela表示。
他补充说,先前的视频生成模型的物理特性与真实世界不同,而通用世界模型系统有助于解决这一问题。
工业与医疗领域的应用
在工业领域,世界模型可以优化制造流程、预测设备故障并提高生产效率。在医疗保健领域,这些模型可以辅助手术规划、药物研发和个性化治疗方案制定。
Nvidia的Omniverse平台创建并运行此类模拟,协助这家4.3万亿美元科技巨头向机器人领域拓展,并建立在视频游戏中模拟现实环境的悠久历史基础上。
Nvidia首席执行官黄仁勋断言,公司下一个主要增长阶段将随着'物理AI'的到来而来,新模型将彻底革新机器人领域。
技术挑战与未来展望
尽管世界模型展现出巨大潜力,但要实现其全部承诺仍面临重大挑战。这些模型需要海量数据和计算资源进行训练,并且仍被视为一个未解决的技术难题。
Meta的LeCun等人表示,这种新一代AI系统为机器提供人类水平智能的愿景可能需要10年时间才能实现。然而,AI专家认为,尖端技术的潜在范围是广泛的。
'世界模型为服务所有其他行业并放大计算机对知识工作所做的事情打开了机会,'Nvidia的Lebaredian指出。
竞争格局与战略布局
世界模型的兴起正在重塑AI领域的竞争格局。传统上专注于LLM技术的公司现在正积极布局这一新兴领域,而那些已经拥有物理世界数据的公司则获得了显著优势。
Niantic通过《Pokémon Go》积累了大量物理世界数据,这为其世界模型开发提供了独特优势。同样,Nvidia凭借其在图形处理和模拟领域的专业知识,正在成为世界模型技术的重要推动者。
与此同时,像Meta这样的公司正在调整其AI战略,平衡长期世界模型研究与短期LLM改进之间的关系。这种战略调整反映了业界对AI未来发展方向的重新思考。
结论:AI进入物理世界的新纪元
世界模型的崛起标志着AI技术从纯数字领域向物理世界的重大拓展。这一转变不仅将推动自动驾驶、机器人等现有领域的发展,还将催生全新的应用场景和商业模式。
随着Google DeepMind、Meta、Nvidia等科技巨头在这一领域的持续投入,我们可以预期未来几年将看到更多突破性进展。虽然技术挑战仍然存在,但世界模型无疑代表了AI发展的下一个前沿方向,将为人类社会带来深远影响。
正如行业专家所预见的,当AI系统能够真正理解和操作物理世界时,我们将迎来一个智能技术与应用无限可能的新时代。