AI视频模型的物理推理能力:突破还是幻象?

1

在过去的几个月里,许多AI支持者对生成式视频模型及其展现出的对现实世界物理特性的有限涌现知识越来越感兴趣。这种学习能力可能成为稳健的"世界模型"的基础,代表着生成式AI实际现实世界能力的一次重大突破。

最近,Google DeepMind研究团队试图通过科学严谨的方法,评估视频模型从训练数据中学习现实世界的能力。在题为《视频模型是零样本学习者和推理者》的论文中,研究人员使用Google的Veo 3模型生成了数千个视频,以测试其在感知、建模、操作和推理现实世界相关任务上的能力。

研究发现与模型表现

研究人员在论文中大胆宣称,Veo 3"能够解决它没有明确训练过的各种任务"(即标题中的"零样本"部分),并认为视频模型"正成为统一的、通用的视觉基础模型"。然而,深入分析实验结果后,研究人员似乎对当今的视频模型采用了某种曲线评分法,并假设未来的进步将解决当前的高度不一致结果。

部分成功与高度一致性

在研究人员测试的数十个任务中,Veo 3确实在某些任务上取得了令人印象深刻且一致的结果。例如,该模型能够在12次试验中可靠地生成机器人手开罐子或抛接球等 plausible 视频。在图像去模糊、去噪、填充复杂图像中的空白区域以及检测图像中物体边缘等任务上,Veo 3也表现出完美或接近完美的结果。

AI视频模型表现

Veo 3能够稳定生成机器人手开罐子的视频,但在其他任务上则表现不佳...图片来源:Google DeepMind

失败案例与不一致性

然而,在其他任务上,模型表现出了更大的变异性。例如,当被要求生成突出显示网格上特定书写字符的视频时,模型在12次试验中有9次失败。当要求模拟本生 burner 点燃并燃烧一张纸时,同样有9次失败。在解决简单迷宫和按顺序弹出标记气泡来排序数字的任务中,模型分别有10次和11次失败。

令人惊讶的是,在研究人员看来,上述所有例子并非失败证据,而是模型能力的体现。根据论文中的"失败案例"标准,Veo 3必须在所有12次试验中都失败某个测试任务,这在62个测试任务中只有16个任务发生。对于其余任务,研究人员写道,"成功率大于0表明模型拥有解决该任务的能力。"

因此,在某个任务中12次试验有11次失败,在论文中被视为模型能力的证据。这种证明模型"拥有解决任务能力"的证据包括18个模型在超过半数试验中失败的任务,以及另外14个模型在25%至50%试验中失败的任务。

评估标准与实际应用差距

诚然,在所有这些情况下,模型在某种程度上确实展示了被测试的能力。但模型无法可靠地执行这些任务意味着,在实践中,它对大多数用例来说性能不够高。任何可能成为"统一的通用视觉基础模型"的未来模型都必须在这些测试中取得更高的一致性。

研究人员虽然承认Veo 3的表现"还不完美",但他们指出从Veo 2到Veo 3有"持续改进",并暗示未来的视频模型"将像大语言模型对语言那样,成为视觉的通用基础模型"。研究人员确实有一些数据支持这一论点。

Veo 3模型性能分析

Veo 3在部分任务上表现出色,但整体性能仍存在显著差异...图片来源:Google DeepMind

例如,在数千次视频生成的定量测试中,Veo 3能够在72%的情况下水平反映随机模式,而Veo 2的这一比例为0%。在边缘检测、物体提取和迷宫 solving 等任务上,Veo 3也显示出比Veo 2更小但仍然令人印象深刻的一致性改进。

未来发展与挑战

然而,正如俗语所说,过去的表现不代表未来的结果。从我们当前的角度来看,很难知道像Veo 3这样的视频模型是否准备在一致性方面看到指数级改进,或者正在接近收益递减的拐点。

对编造大语言模型的经验也表明,模型有时生成正确结果与升级后的模型始终生成正确结果之间存在巨大差距。弄清视频模型在给出相同基本提示时失败或成功的时间、原因和方式,并非一个简单的问题,而且未来模型不太可能很快就能解决这个问题。

行业影响与技术展望

尽管当今的生成式视频模型令人印象深刻,但这类测试中显示的不一致结果证明,在它们能够被说成是对世界进行广泛推理之前,还有很长的路要走。这一研究对AI行业具有重要启示,提醒我们在评估技术能力时需要更加严谨和客观。

视频模型的发展路径可能比许多人想象的更加复杂和曲折。虽然在某些特定任务上取得了显著进展,但要实现真正的通用视觉理解,还需要克服许多技术和理论上的挑战。这不仅需要更多的数据和计算资源,还需要对人类认知和物理世界本质的更深入理解。

结论

AI视频模型在物理推理任务上的表现揭示了当前技术的局限性。虽然Veo 3等模型在某些任务上展现出令人印象深刻的能力,但其高度不一致的表现表明,距离真正的"世界模型"还有相当长的距离。研究人员乐观地预测未来改进,但客观评估要求我们认识到当前技术的局限性,并对未来的发展保持合理期待。

随着研究的深入和技术的进步,我们可能会看到视频模型在一致性和可靠性方面的显著提升。然而,实现真正的通用视觉理解不仅需要技术上的突破,还需要对人类认知和物理世界本质的更深入理解。在这个过程中,保持科学严谨的态度和对技术能力的合理评估至关重要。