在过去的几个月里,许多AI支持者对生成式视频模型及其表现出的对物理世界有限但明显的知识学习越来越感兴趣。这种学习能力可能支撑一个强大的所谓"世界模型",这将是生成式AI在实际现实世界能力方面的一个重大突破。
最近,Google DeepMind研究团队试图通过科学严谨的方法,检验视频模型究竟能从训练数据中学到多少关于真实世界的知识。在题为《视频模型是零样本学习者和推理者》的论文中,研究人员使用Google的Veo 3模型生成了数千个视频,以测试其在感知、建模、操作和推理现实世界相关任务上的能力。
研究方法与发现
研究人员在论文中大胆宣称,Veo 3"可以解决它未明确训练过的各种任务"(即标题中的"零样本"部分),并且视频模型"正在成为统一的通用视觉基础模型的路径"。然而,深入分析实验的实际结果,研究人员似乎在某种程度上对当今的视频模型采取了曲线评价,并假设未来的进步将解决许多当前的高度不一致结果。
表现完美的任务
在研究人员测试的数十个任务中,Veo 3确实在一些任务上取得了令人印象深刻且一致的结果。例如,该模型能够可靠地生成机器人手开罐子或抛接球的视频,在12次试验中表现一致。Veo 3在图像去模糊、去噪、填充复杂图像中的空白区域以及检测图像中物体边缘等任务上也表现出完美或接近完美的结果。
Veo 3能够稳定生成机器人手开罐子的视频,但在其他任务上则表现不佳。图片来源:Google DeepMind
表现不一致的任务
然而,在其他任务上,模型的表现则更加不稳定。例如,当要求生成一个突出显示网格上特定字符的视频时,模型在12次试验中有9次失败。当要求模拟本生灯点燃并燃烧一张纸时,同样有9次失败。当要求解决一个简单的迷宫时,12次中有10次失败。当要求通过按顺序弹出标记的气泡来对数字进行排序时,12次中有11次失败。
研究人员的评价标准
对于研究人员来说,上述所有例子并非失败证据,而是模型能力的体现。在论文的"失败案例"分类下,Veo 3必须在所有12次试验中都失败某项测试才能被列入,这在62个测试任务中只有16个。对于其余任务,研究人员写道,"成功率大于0表明模型具备解决该任务的能力"。
因此,在论文中,某项任务12次试验中有11次失败被视为模型能力的证据。这种"模型具备解决任务能力"的证据包括18个模型在超过一半的12次试验中失败的任务,以及另外14个模型在25%到50%的试验中失败的任务。
过去表现与未来性能
确实,在所有这些情况下,模型在技术上确实在某种程度上展示了被测试的能力。但模型无法可靠地执行该任务意味着,在实践中,它对大多数用例来说性能不够。任何能够成为"统一的通用视觉基础模型"的未来模型都必须能够在这些测试中取得更高的一致性。
尽管研究人员承认Veo 3的表现"还不完美",但他们指出"从Veo 2到Veo 3有持续改进",并暗示未来的视频模型"将像LLMs对语言一样,成为视觉的通用基础模型"。研究人员确实有一些数据支持这一论点。
例如,在数千次视频生成的定量测试中,Veo 3能够72%的时间反映随机模式的水平翻转,而Veo 2则为0%。Veo 3在边缘检测、物体提取和迷宫解决等任务上也显示出比Veo 2更好的一致性,尽管改进较小。
然而,过去的表现并不能预示未来的结果,正如人们常说的那样。从我们目前的视角来看,很难知道像Veo 3这样的视频模型是否准备在一致性方面看到指数级改进,或者是否正在接近收益递减的拐点。
经验与挑战
与混淆大语言模型(LLMs)的经验也表明,模型有时生成正确结果与升级后的模型总是生成正确结果之间通常存在巨大差距。确定视频模型在给出相同基本提示时失败或成功的时间、原因和方式,并非一个简单的问题,而且也不是未来模型注定很快能解决的问题。
尽管当今的生成式视频模型令人印象深刻,但这种测试中显示的不一致结果证明,在它们能够被认为对世界进行广泛推理之前,还有很长的路要走。
未来展望
AI视频模型的发展正处于一个关键的十字路口。一方面,从Veo 2到Veo 3的进步表明,这些模型正在朝着正确的方向发展。另一方面,当前的不一致性表明,距离真正理解物理世界的模型还有很长的路要走。
未来的研究需要更深入地理解这些模型在哪些方面表现出色,哪些方面仍然存在不足。只有通过更严格的评估标准和更透明的报告,我们才能准确评估这些模型的真正能力,并为未来的发展指明方向。
结论
AI视频模型在物理推理任务上的表现呈现出明显的两极分化:在某些任务上表现出色,而在其他任务上则频繁失败。这种不一致性表明,尽管这些模型在某些方面取得了显著进步,但距离真正理解物理世界的"世界模型"还有很长的路要走。
研究人员乐观地认为,未来的改进将解决当前的限制,但我们需要保持谨慎,并基于实际数据而非乐观预测来评估这些模型的真正能力。只有通过更严格、更全面的评估方法,我们才能准确了解AI视频模型的当前能力边界,并为未来的发展设定合理的期望。