近年来,生成式AI领域最令人兴奋的发展之一便是视频生成模型的进步。许多AI支持者对这些模型展现出的对真实世界物理属性的有限涌现知识越来越感兴趣。这类学习能力可能支撑起一个强大的"世界模型",代表着生成式AI在实际现实世界操作能力上的重大突破。然而,最新研究揭示了当前AI视频模型在物理推理任务上的显著局限性。
研究背景与测试方法
Google DeepMind研究团队在其题为《视频模型是零样本学习者和推理者》的论文中,尝试科学地评估视频模型从训练数据中学习真实世界的能力。研究人员使用Google的Veo 3模型生成了数千个视频,测试其在感知、建模、操作和推理与现实世界相关的数十项任务中的能力。
研究团队声称,Veo 3能够解决其未明确训练的广泛任务(即标题中的"零样本"部分),并且视频模型正朝着成为统一、通用的视觉基础模型的方向发展。然而,深入实验结果后发现,研究人员的评估标准存在一定宽松,且假设未来进步将解决当前的高度不一致性问题。
测试结果:表现极不均衡
Veo 3在数十项测试任务中取得了令人印象深刻且一致的结果。例如,模型能够可靠地生成机器人手开罐子或抛接球的逼真视频,在12次试验中表现一致。Veo 3在图像去模糊、去噪、填充复杂图像中的空白区域以及检测物体边缘等任务上也表现出完美或接近完美的结果。
然而,在其他任务上,模型表现则大相径庭。例如,当被要求生成突出显示网格上特定字符的视频时,模型在12次试验中有9次失败。当要求模拟本生灯点燃并燃烧纸张时,同样有9次失败。在解决简单迷宫和按顺序标记数字气泡排序任务中,失败率分别达到10/12和11/12。
令人意外的是,在研究人员的评估标准下,上述例子不被视为失败证据,而是模型能力的体现。根据论文中的"失败案例"标准,Veo 3必须在所有12次试验中都失败某项测试才会被列为失败案例,这在62项测试中仅发生在16项任务中。对于其余任务,研究人员写道,"成功率大于0表明模型拥有解决该任务的能力"。
这意味着,在11/12的试验中失败某项任务,在论文中被视为模型能力的证据。这种"拥有解决任务能力"的证据包括18项模型在超过半数试验中失败的任务,以及另外14项在25-50%试验中失败的任务。
评估标准的争议
这种评估方式引发了争议。虽然从技术上讲,模型在所有情况下确实在某种程度上展现了被测试的能力,但模型无法可靠地执行这些任务意味着,在实践中,它对于大多数用例来说性能不足。任何能够成为"统一通用视觉基础模型"的未来模型都必须在这些测试中取得更高的一致性。
研究人员虽然承认Veo 3的表现"尚未完美",但他们指出从Veo 2到Veo 3的"持续改进",暗示未来的视频模型将"成为视觉的通用基础模型,正如LLMs对语言所做的那样"。研究人员确实有一些数据支持这一论点。
例如,在数千次视频生成的定量测试中,Veo 3能够72%的时间反映随机模式的水平翻转,而Veo 2则为0%。在边缘检测、物体提取和迷宫 solving等任务上,Veo 3也显示出比Veo 2更小但仍然令人印象深刻的改进。
然而,正如俗语所说,过去的业绩并不能预示未来的结果。从我们当前的视角来看,很难确定像Veo 3这样的视频模型是否有望在一致性上实现指数级改进,或者是否接近收益递减点。
经验教训与未来展望
与经常编造事实的LLM的经验表明,模型有时生成正确结果与升级后的模型始终生成正确结果之间往往存在巨大差距。确定视频模型在给出相同基本提示时失败或成功的时间、原因和方式,并非一个简单的问题,而且未来的模型不太可能很快注定要解决这个问题。
尽管今天的生成式视频模型令人印象深刻,但这种测试中显示的不一致结果证明,在它们能够被说成是对世界进行广泛推理之前,还有很长的路要走。
技术挑战与突破方向
当前AI视频模型面临的核心挑战在于物理推理的一致性。模型可能在某些任务上表现出色,但在看似相关的任务上却完全失败,这表明模型并未真正理解底层物理规律,而是学会了表面上的模式匹配。
未来突破可能需要以下几个方向:
多模态训练增强:结合视觉、触觉、听觉等多种感官数据训练模型,帮助其建立更全面的物理世界理解。
物理规律嵌入:将已知的物理规律和约束直接编码到模型架构中,而非仅依赖数据驱动学习。
因果推理能力:发展模型的因果推理能力,使其能够理解事件之间的因果关系,而不仅仅是相关性。
持续学习与适应性:设计能够从有限样本中快速学习并适应新场景的模型架构。
结论
AI视频模型在模拟真实世界物理规律方面展现出的潜力令人兴奋,但当前研究揭示的严重不一致性表明,距离实现真正可靠的世界模型仍有显著差距。Veo 3等模型在某些任务上的成功证明了进步的可能性,但评估标准的宽松和未来进展的乐观假设不应掩盖当前技术的局限性。
随着研究人员继续探索和改进这些模型,我们需要保持既对突破性进展保持开放态度,又对当前技术的局限性保持清醒认识。只有这样,我们才能客观评估AI视频模型的实际能力,并为其发展设定合理期望。