近年来,人工智能领域的发展呈现出明显的分化趋势。随着大型语言模型(LLM)的发展速度逐渐放缓,谷歌DeepMind、Meta和英伟达等顶级AI公司正将大量资金和研发资源投入到'世界模型'的开发中。这些系统旨在通过学习视频和机器人数据来导航和理解物理世界,而非仅仅依赖语言。这一转变标志着AI技术正在从纯数字领域向物理世界拓展,为机器'超级智能'的实现开辟了新的路径。
语言模型发展遭遇瓶颈
大型语言模型自问世以来,经历了令人惊叹的性能飞跃。从OpenAI的ChatGPT到谷歌的Gemini,再到埃隆·马斯克的xAI,各大公司推出的LLM在文本生成、理解和推理能力方面取得了显著进步。然而,近期的技术进展表明,这些模型的发展速度正在放缓。
"尽管在LLM开发上投入了巨额资金,但公司之间发布的模型之间的性能飞跃正在减缓,"行业分析师指出。这一现象引发了业界对于LLM是否已达到发展天花板的担忧。传统上,AI的进步主要依赖于增加模型参数规模和训练数据量,但这种方法似乎正在遭遇边际效益递减的问题。
世界模型的兴起正是在这一背景下出现的。与LLM不同,世界模型专注于理解和交互物理世界,被视为突破当前AI发展瓶颈的关键方向。
世界模型:理解物理世界的AI新范式
世界模型是一种通过学习视频和机器人数据来导航和理解物理环境的AI系统。与主要处理文本数据的LLM不同,这些模型能够感知和响应现实世界中的三维空间、物体互动和物理规律。
"世界模型的目标是构建能够理解物理世界并在其中运行的智能系统,"英伟达Omniverse和仿真技术副总裁Rev Lebaredian表示。"如果能够实现这一目标,世界基础模型的市场潜力可能高达100万亿美元,几乎相当于全球经济规模。"
世界模型通过真实或模拟环境的数据流进行训练,被视为推动自动驾驶汽车、机器人和所谓AI代理发展的重要一步。然而,这些模型需要海量数据和计算资源进行训练,并且仍被认为是尚未解决的技术挑战。
科技巨头的世界模型布局
谷歌DeepMind的Genie系列
谷歌DeepMind在去年推出了Genie 3模型,该模型能够逐帧生成视频,并考虑过去的交互历史。与传统一次性生成整个视频的模型不同,Genie 3采用逐步生成的方式,更接近人类对动态场景的理解。
"AI目前仍然严重局限于数字领域,"谷歌DeepMind的Genie 3联合负责人Shlomi Fruchter表示。"通过构建看起来或行为类似于真实世界的环境,我们可以有更可扩展的方式来训练AI...而在现实世界中犯错的实际后果。"
Meta的V-JEPA模型
Meta正在尝试模拟儿童通过被动观察周围世界进行学习的方式,其V-JEPA模型在原始视频内容上进行了训练。由Meta首席AI科学家Yann LeCun领导的Facebook人工智能研究(Fair)实验室在6月发布了该模型的第二个版本,并在机器人上进行了测试。
LeCun被誉为现代AI的"教父"之一,是世界模型新架构最直言不讳的支持者之一。他警告说,LLM永远无法实现人类般的推理和规划能力。
然而,Meta首席执行官马克·扎克伯格最近已增加对顶尖AI人才的投入,一个精英团队正致力于在其下一个Llama LLM模型上取得突破。这包括雇佣数据标注公司Scale AI的创始人Alexandr Wang负责Meta的所有AI工作,LeCun现在向Wang汇报。
英伟达的Omniverse平台
英伟达的Omniverse平台创建并运行模拟环境,协助这家4.3万亿美元科技巨头向机器人领域迈进,并建立在电子游戏中模拟现实环境的长期历史基础上。
英伟达首席执行官黄仁勋断言,公司下一个主要增长阶段将随着'物理AI'的到来而来,这些新模型将彻底改变机器人领域。
"世界模型'打开了一个服务所有其他行业的机会,并放大了计算机对知识工作所做的相同事情,"英伟达的Lebaredian表示。
世界模型的应用前景
娱乐与游戏行业
世界模型在娱乐行业的应用前景尤为广阔。它们可以创建交互式和逼真的场景,为游戏和影视制作带来革命性变化。
由AI先驱李飞飞创立的World Labs正在开发一种模型,可以从单个图像生成类似视频游戏的3D环境。与好莱坞狮门影业等工作室有合作的视频生成初创公司Runway,上月推出了一款使用世界模型创建游戏场景的产品,能够实时生成个性化故事和角色。
"传统的视频方法是一种像素生成的蛮力方法,你试图在几帧中挤压运动来创造运动的错觉,但模型实际上并不真正知道或推理场景中发生了什么,"Runway首席执行官Cristóbal Valenzuela表示。
他补充说,之前的视频生成模型的物理规律与真实世界不同,而通用世界模型系统有助于解决这一问题。
自动驾驶与机器人技术
世界模型在自动驾驶和机器人技术领域具有巨大潜力。这些模型可以帮助机器更好地理解和导航复杂的环境,提高安全性和效率。
旧金山的Niantic已经绘制了1000万个地点,通过包括拥有3000万月活跃玩家的《Pokémon Go》在内的游戏收集信息。即使在今年6月将游戏出售给总部位于美国的Scopely后,Niantic的玩家仍然通过扫描公共地标贡献匿名数据,以帮助构建其世界模型。
"我们在这个问题上有一个良好的开端,"Niantic Spatial(Scopely交易后公司的新名称)首席执行官John Hanke表示。
制造与医疗保健
世界模型在制造业和医疗保健等物理密集型行业也有广阔的应用前景。它们可以优化生产流程、预测设备故障,甚至在手术辅助中发挥作用。
"世界模型将使AI能够在物理世界中执行任务,而不仅仅是处理数字信息,"行业专家指出。"这将彻底改变我们与技术的互动方式,从自动化工厂到医院手术机器人。"
技术挑战与未来展望
尽管世界模型前景广阔,但要实现其全部潜力仍面临诸多挑战。首先,构建这些模型需要收集大量关于物理世界的数据,这是一个复杂且成本高昂的过程。
其次,世界模型需要巨大的计算资源进行训练,这限制了只有少数科技巨头能够在这一领域进行大规模投入。此外,如何确保模型对物理世界的理解和交互是准确和安全的,仍然是一个开放的研究问题。
Meta的LeCun等人表示,这种新一代AI系统为机器提供人类级智能的愿景可能需要10年时间才能实现。然而,AI专家认为,这一前沿技术的潜在范围是广泛的。
"世界模型代表了AI发展的下一个前沿,"一位行业分析师评论道。"它们不仅将扩展AI的能力边界,还将创造全新的应用场景和商业模式。"
结论
随着大型语言模型的发展速度放缓,AI巨头正将目光投向世界模型这一新兴领域。通过理解和交互物理世界,这些模型有望实现机器'超级智能'的愿景,并在自动驾驶、机器人、游戏娱乐等多个行业带来革命性变化。
尽管面临数据需求、计算资源和安全性等挑战,但世界模型代表了AI技术发展的自然延伸。随着技术的不断进步和应用的深入,我们有理由相信,在不远的将来,AI系统将能够像人类一样理解和操作物理世界,开启人机协作的新篇章。
正如英伟达的黄仁勋所言:"物理AI将是下一个重大增长阶段"。在这个新阶段,AI将从数字世界走向物理世界,真正成为人类生活和生产中不可或缺的智能伙伴。