世界模型崛起:当大语言模型发展遇阻,AI巨头转向物理世界探索

1

在人工智能领域,一场静默的革命正在悄然发生。随着大语言模型(LLM)的发展速度逐渐放缓,谷歌DeepMind、Meta和英伟达等顶级AI公司正将大量资源投入到"世界模型"的研发中。这些模型通过学习视频和机器人数据,旨在使AI系统能够理解和导航物理世界,而非仅仅处理语言信息。世界模型被视为实现机器"超级智能"的关键路径,潜在市场规模可能高达100万亿美元。

大语言模型的瓶颈

近年来,我们见证了以OpenAI的ChatGPT为代表的大语言模型的惊人发展。这些模型能够生成流畅的文本、回答复杂问题,甚至创作出令人惊叹的代码和诗歌。然而,最近几个月来,行业内的一个共识正在形成:LLM的性能提升速度正在放缓。

"大语言模型似乎正在触及性能天花板,"一位不愿透露姓名的AI研究员表示。"尽管各公司仍在投入巨资开发,但模型之间的性能差距正在缩小,突破性进展变得愈发困难。"

这一趋势促使AI公司将目光投向了新的技术方向——世界模型。这些模型不再局限于文本和数字领域,而是试图让AI系统理解和操作物理世界,从而开启AI发展的全新篇章。

什么是世界模型?

世界模型是一种人工智能系统,通过学习视频和机器人数据,使AI能够理解和导航物理环境。与主要处理文本的大语言模型不同,世界模型旨在让AI系统能够"感知"和"理解"三维空间中的物体、运动和因果关系。

"传统AI系统非常局限于数字领域,"谷歌DeepMind的Genie 3项目联合负责人Shlomi Fruchter解释道。"通过构建看起来或行为类似真实世界的环境,我们可以找到更可扩展的方式来训练AI...而无需在现实世界中犯错的真实后果。"

世界模型的训练依赖于真实或模拟环境的数据流。它们被视为推动自动驾驶汽车、机器人和所谓AI代理进步的重要一步,但需要大量数据和计算能力进行训练,并且被认为是一个尚未解决的技术挑战。

巨头的战略转向

世界模型正成为AI巨头们竞争的新战场。谷歌DeepMind、Meta和英伟达等公司都在积极投入资源,试图在这一领域取得领先地位。

谷歌DeepMind:Genie 3的突破

上月,谷歌DeepMind预览了Genie 3,这是一种逐帧生成视频并考虑过去交互的模型。此前,视频生成模型通常一次性创建整个视频,而非逐步生成。

Genie 3代表了视频生成技术的重要进步,它使AI系统能够更好地理解和模拟物理环境中的动态变化。这一突破对于训练能够在现实世界中导航的AI系统具有重要意义。

Meta:从观察中学习

Meta则试图通过被动观察来模拟儿童学习世界的方式,其V-JEPA模型在原始视频内容上进行了训练。

由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究(Fair)实验室于6月发布了该模型的第二个版本,并已在机器人上进行了测试。LeCun被认为是现代AI的"教父"之一,也是新架构最直言不讳的支持者之一,他警告说LLM永远无法获得人类那样的推理和规划能力。

尽管如此,Meta的首席执行官马克·扎克伯格最近已增加对顶尖AI人才的投入,一个精英团队正在努力推动其下一个Llama LLM模型的突破。这包括聘请数据标注集团Scale AI的创始人Alexandr Wang负责Meta的所有AI工作,LeCun现在向Wang汇报。

英伟达:物理AI的愿景

英伟达则将世界模型视为其"物理AI"愿景的核心。英伟达Omniverse和模拟技术副总裁Rev Lebaredian表示,世界模型的潜在市场可能巨大,几乎相当于全球经济规模,因为它将技术引入制造业和医疗保健等物理领域。

"世界基础模型的机会是什么?本质上...如果我们能创造出一种能够理解物理世界并在物理世界中运作的智能,那就是100万亿美元,"他说。

英伟达首席执行官黄仁坚断言,公司的下一个主要增长阶段将随着"物理AI"的到来而来,这些新模型将彻底改变机器人技术领域。

应用场景的拓展

世界模型的潜在应用范围极为广泛,从自动驾驶汽车到机器人技术,再到娱乐行业,正在开辟AI应用的新疆域。

娱乐行业的变革

世界模型在娱乐行业的一个近期应用是创建互动和逼真的场景。由AI先驱李飞飞创立的World Labs正在开发一种模型,可以从单张图像生成类似视频游戏的3D环境。

与好莱坞工作室(包括狮门影业)有合作的视频生成初创公司Runway上月推出了一款使用世界模型创建游戏场景的产品,可以实时生成个性化故事和角色。

"传统视频方法是一种像素生成的蛮力方法,你试图在几帧中挤压动作来创造运动的错觉,但模型实际上并不真正知道或推理场景中发生了什么,"Runway首席执行官Cristóbal Valenzuela说。

他补充说,之前的视频生成模型的物理特性与真实世界不同,而通用世界模型系统有助于解决这一问题。

自动驾驶与机器人技术

在自动驾驶领域,世界模型可以帮助车辆更好地理解复杂的交通环境,预测其他道路使用者的行为,并在各种情况下做出更安全的决策。

对于机器人技术,世界模型使机器人能够更好地理解物理空间,与人类进行更自然的互动,并在非结构化环境中执行任务。这可能会彻底改变从制造业到医疗保健的各个行业。

工业与医疗应用

在工业领域,世界模型可以用于创建数字孪生,即物理资产、流程或系统的虚拟副本。这使公司能够优化运营、预测维护需求,并在安全的环境中测试新流程。

在医疗保健领域,世界模型可以帮助外科医生规划复杂手术,模拟药物在人体内的作用,甚至训练医疗专业人员应对紧急情况。

技术挑战与解决方案

尽管世界模型前景广阔,但这一领域仍面临重大挑战。构建这些模型需要收集大量关于物理世界的数据。

旧金山公司Niantic已经绘制了1000万个地点,通过包括《Pokémon Go》在内的游戏收集信息,该游戏有3000万月度玩家与全球地图互动。

Niantic运营《Pokémon Go》九年,即使在6月将游戏出售给总部位于美国的Scopely后,其玩家仍通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。

"我们在这个问题上有一个良好的开端,"Niantic Spatial(Scopely交易后该公司的现名)的首席执行官John Hanke说。

数据收集与隐私

世界模型的一个主要挑战是获取足够多样化的训练数据,同时尊重隐私和伦理考虑。公司正在探索各种方法来解决这个问题,包括合成数据生成、联邦学习和其他隐私保护技术。

计算资源的需求

训练世界模型需要巨大的计算资源。英伟达的Omniverse平台创建并运行此类模拟,协助这家4.3万亿美元科技巨头向机器人技术迈进,并建立在视频游戏中模拟现实环境的悠久历史基础上。

为了解决这一挑战,公司正在开发更高效的算法、专用硬件和分布式训练方法,以降低训练世界模型的成本和时间。

模型泛化能力

另一个挑战是确保模型能够泛化到训练数据中未包含的新环境和情况。研究人员正在探索迁移学习、元学习和持续学习等技术,以提高模型的适应性和鲁棒性。

未来展望

像Meta的LeCun这样的人表示,这一代为机器提供人类水平智能的新AI系统的愿景可能需要10年才能实现。然而,根据AI专家的说法,尖端技术的潜在范围是广泛的。

"世界模型'为服务所有其他行业打开了机会,并放大了计算机对知识工作所做的相同事情,"英伟达的Lebedian说。

随着技术的进步,我们可以预期世界模型将在多个领域带来革命性变化。从更安全的自动驾驶汽车到更智能的机器人,再到更沉浸式的娱乐体验,这些模型有潜力改变我们与技术互动的方式。

结论

世界模型的崛起标志着AI发展的一个重要转折点。随着大语言模型的发展速度放缓,AI巨头正将资源和注意力转向能够理解和操作物理世界的系统。这一转变不仅有望解决当前AI系统的局限性,还可能开辟全新的应用领域和市场。

虽然世界模型仍面临重大挑战,包括数据需求、计算资源和泛化能力,但这一领域的进展令人鼓舞。随着技术的成熟,我们可以期待看到世界模型在自动驾驶、机器人技术、娱乐、工业和医疗保健等领域的应用。

最终,世界模型可能代表了人工智能发展的下一个前沿,使AI系统能够更全面地理解和与物理世界互动,从而实现真正的机器智能。这不仅将改变我们与技术互动的方式,还可能重塑整个经济和社会结构。