在过去的几个月里,许多AI倡导者对生成式视频模型及其展现出的对现实世界物理属性的有限知识表现出了日益增长的兴趣。这种学习能力可能支撑起一个强大的所谓"世界模型",这将标志着生成式AI在实际现实世界操作能力上的重大突破。
最近,Google DeepMind的研究团队试图通过科学严谨的方法来评估视频模型究竟能在多大程度上从训练数据中学习现实世界。在题为《视频模型是零样本学习者和推理者》的论文中,研究人员使用Google的Veo 3模型生成了数千个视频,旨在测试其在感知、建模、操作和推理现实世界相关任务上的能力。
研究方法与实验设计
研究人员对Veo 3模型进行了62项不同任务的测试,每项任务重复进行12次试验,以评估其性能的一致性和可靠性。这些任务涵盖了从简单的图像处理到复杂的物理推理等多个方面。
令人惊讶的是,尽管Veo 3在某些任务上表现稳定,但在其他任务上的表现却极不稳定。这种不一致性引发了关于AI视频模型是否真正理解物理世界的基本问题。
稳定表现的任务
Veo 3在部分任务上展现出了令人印象深刻且一致的结果。例如,该模型能够可靠地生成机器人手开罐子或抛接球等动作的视频,在12次试验中均表现出色。同样,在图像去模糊、去噪、填补复杂图像中的空白区域以及检测物体边缘等任务上,Veo 3也展示了完美或接近完美的结果。
这些成功案例表明,AI视频模型在某些特定类型的视觉任务上已经达到了相当高的水平,能够稳定地生成符合物理规律的内容。
不稳定表现的任务
然而,当面对其他类型的任务时,Veo 3的表现则大相径庭。例如,当被要求生成视频以突出显示网格上的特定字符时,模型在12次试验中有9次失败。当被模拟本生灯点燃并燃烧纸张的过程时,同样有9次试验失败。在解决简单迷宫和按顺序弹出标记数字泡泡的任务中,失败率分别达到10/12和11/12。
值得注意的是,研究人员对这些"失败案例"的定义相当宽松。只有在所有12次试验中都失败的任务才被归类为"失败案例",这样的任务共有16项。对于其他任务,研究人员认为只要成功率大于0,就表明模型"具备解决该任务的能力"。
这种评估方式意味着,即使在11/12次试验都失败的情况下,研究人员仍将其视为模型能力的证据。按照这一标准,有18项任务模型在超过一半的试验中失败,另有14项任务在25-50%的试验中失败。
评估标准的争议
这种评估方式引发了争议。虽然从技术上讲,模型确实在某种程度上展示了被测试的能力,但其无法可靠地执行这些任务意味着,在大多数实际应用场景中,其性能仍然不足。
任何能够成为"统一的通用视觉基础模型"的未来模型,都必须能够在这些测试中取得更一致的成功。研究人员虽然承认Veo 3的表现"尚不完美",但他们指出从Veo 2到Veo 3的"持续改进",暗示未来的视频模型将像大型语言模型(LLMs)之于语言一样,成为视觉领域的通用基础模型。
改进与进步的证据
研究人员确实提供了一些支持这一论点的数据。例如,在数千次视频生成的定量测试中,Veo 3能够72%的时间正确反映水平随机模式,而Veo 2的这一比例为0%。在边缘检测、物体提取和迷宫解决等任务上,Veo 3相比Veo 2也显示出较小但仍然令人印象深刻的改进。
然而,正如俗语所说,过去的业绩并不能预示未来的结果。从我们当前的角度来看,很难知道像Veo 3这样的视频模型是否会看到一致性的指数级改进,或者是否正在接近一个收益递减的拐点。
从LLMs经验中获得的教训
与大型语言模型的经验也表明,模型有时生成正确结果与升级后的模型始终生成正确结果之间往往存在巨大差距。弄清楚视频模型在给予相同基本提示时为何以及如何失败或成功,并非一个简单的问题,而且未来的模型也不太可能很快就能解决这个问题。
结论:长路漫漫
尽管当今的生成式视频模型令人印象深刻,但这种测试中展示的不一致结果证明,在它们能够被说成是对广泛世界进行推理之前,还有很长的路要走。AI视频模型虽然在某些特定任务上表现出色,但距离真正可靠地模拟和理解物理现实世界仍然存在显著差距。
未来的研究需要更加关注模型的一致性和可靠性,而不仅仅是单一任务上的成功。只有解决了这些基础问题,AI视频模型才能真正成为理解和模拟现实世界的强大工具。