在过去的几个月里,许多AI支持者对生成式视频模型及其展现出的对物理世界属性的有限涌现知识表现出日益增长的兴趣。这类学习能力可能支撑起一个被称为'世界模型'的稳健版本,代表着生成式AI在实际现实世界操作能力上的重大突破。
最近,Google DeepMind研究团队尝试通过科学严谨的方法,测试视频模型究竟能在多大程度上从训练数据中学习真实世界的知识。在题为《视频模型是零样本学习者和推理者》的论文中,研究人员使用Google的Veo 3模型生成了数千个视频,用以测试其在感知、建模、操作和推理现实世界相关任务上的能力。
研究发现:高度不一致的表现
在论文中,研究人员大胆宣称Veo 3能够解决'多种它未明确接受训练的任务'(即标题中的'零样本'部分),并认为视频模型'正成为统一的通用视觉基础模型'。然而,深入分析这些实验的实际结果,研究人员似乎对当今的视频模型采取了某种宽容的评价标准,并假设未来的进步将平滑掉许多目前的高度不一致结果。
部分任务表现优异
在研究人员测试的数十项任务中,Veo 3确实在一些任务上取得了令人印象深刻且一致的结果。例如,该模型能够可靠地生成机器人手打开罐子或投接球等 plausible 的视频,在12次试验中表现一致。在图像去模糊、去噪、填充复杂图像中的空白区域以及检测图像中物体边缘等任务上,Veo 3也表现出完美或接近完美的结果。
多数任务表现不稳定
但在其他任务上,模型显示出更多变数的结果。例如,当被要求生成视频以突出显示网格上的特定书写字符时,模型在12次试验中有9次失败。当被要求模拟本生 burner 点燃并燃烧一张纸时,同样有9次失败。在解决简单迷宫的任务中,12次试验有10次失败;而在按顺序弹出标记气泡以对数字进行排序的任务中,12次试验有11次失败。
令人意外的是,在研究人员看来,上述例子并非失败证据,而是模型能力的体现。根据论文标准,只有当模型在所有12次试验中都失败时,才会被列为'失败案例',这在测试的62项任务中只有16项。对于其余任务,研究人员写道:'成功率大于0表明模型具有解决该任务的能力。'
因此,在某个任务中12次试验有11次失败,在论文中被视为模型能力的证据。这种模型'拥有解决任务能力'的证据包括18项模型在超过半数试验中失败的任务,以及另外14项模型在25%至50%试验中失败的任务。
评估标准:宽容还是客观?
诚然,在所有这些情况下,模型在技术上的确在某种程度上展示了被测试的能力。但模型无法可靠地执行这些任务意味着,在实践中,它对大多数用例来说性能仍不足够。任何能够成为'统一的通用视觉基础模型'的未来模型,都必须在这些测试中取得更一致的成功。
研究人员虽然承认Veo 3的表现'尚未完美',但他们指出从Veo 2到Veo 3的'持续改进',暗示未来的视频模型'将像大语言模型对语言那样,成为视觉的通用基础模型。'在这一论点上,研究人员确实有一些数据支持。
例如,在数千次视频生成的定量测试中,Veo 3能够72%的时间反映随机模式的水平翻转,而Veo 2的这一比例为零。在边缘检测、物体提取和迷宫解决等任务上,Veo 3相较于Veo 2也展现出一致性上的较小但仍然令人印象深刻的改进。
技术进步与未来展望
然而,正如俗语所说,过去的表现不能预示未来的结果。从我们当前的角度来看,很难判断像Veo 3这样的视频模型是否即将在一致性方面取得指数级改进,或者正在接近收益递减的拐点。
图:Veo 3在部分物理推理任务上的测试结果,显示其表现的高度不一致性。
图:Veo 3能够一致生成机器人手打开罐子的视频,但在其他任务上表现不稳定。
与编造大语言模型的经验也表明,模型'有时'生成正确结果与升级后的模型'总是'生成正确结果之间往往存在巨大差距。确定视频模型在获得相同基本提示时失败或成功的原因、方式和时机,并非一个简单的问题,而且未来的模型不太可能很快就能解决这个问题。
结论:现实与期望的差距
尽管当今的生成式视频模型令人印象深刻,但这种测试中展示的不一致结果证明,在它们能够被认为是对世界进行广泛推理之前,还有很长的路要走。
当前AI视频模型在物理世界推理任务上的表现揭示了技术发展的一个关键阶段:虽然某些特定任务已取得显著进步,但整体上仍存在高度的不一致性。这种不一致性不仅限制了模型的实用价值,也反映了AI系统在理解物理世界基本原理方面的根本局限。
未来的研究需要更深入地探索这些模型失败和成功的模式,开发更可靠的评估方法,并探索改进模型物理推理能力的创新方法。只有解决了这些基本挑战,AI视频模型才能真正成为理解我们物理世界的强大工具,而非仅仅是在特定条件下偶尔成功的系统。