在过去的几个月里,许多AI支持者对生成式视频模型及其展现出的对物理世界属性的有限涌现知识越来越感兴趣。这种学习能力可能支撑起一个强大的"世界模型"版本,这将代表生成式AI在实际现实世界能力方面的一次重大突破。然而,最新研究显示,当前的AI视频模型在物理推理任务上的表现高度不一致,引发了对它们是否真正理解物理世界的质疑。
研究背景与方法
Google DeepMind的研究人员最近尝试通过科学严谨的方法来评估视频模型从训练数据中学习现实世界的能力。在其直接命名为《视频模型是零样本学习者和推理者》的论文中,研究人员使用Google的Veo 3模型生成了数千个视频,旨在测试其在数十个与感知、建模、操作和推理现实世界相关任务中的能力。
研究人员在论文中大胆宣称,Veo 3能够解决它没有明确训练过的各种任务(即标题中的"零样本"部分),并且视频模型正在成为统一的通用视觉基础模型的路径上。然而,深入分析这些实验的实际结果,研究人员似乎在某种程度上对今天的视频模型采取了较为宽松的评估标准,并假设未来的进步将解决许多当前的高度不一致结果。
不一致的测试结果
表现优异的任务
在研究人员测试的数十项任务中,Veo 3确实在某些任务上取得了令人印象深刻且一致的结果。例如,该模型能够可靠地生成机器人手开罐或投接球等动作的合理视频,在12次试验中表现一致。Veo 3在图像去模糊或去噪、填充复杂图像中的空白区域以及检测图像中物体边缘等任务上也表现出完美或接近完美的结果。
表现不佳的任务
然而,在其他任务上,模型的表现则更加多变。例如,当被要求生成一个突出显示网格上特定书写字符的视频时,模型在12次试验中有9次失败。当被模拟本生灯点燃并燃烧一张纸时,同样有9次失败。当被要求解决一个简单的迷宫时,12次试验中有10次失败。而当被要求通过按顺序标记气泡来对数字进行排序时,12次试验中有11次失败。
"成功率大于零即证明能力"
对于研究人员来说,上述所有例子都不是失败证据,而是模型能力的标志。在论文的"失败案例"下列出的任务,Veo 3必须在所有12次试验中都失败,这在测试的62项任务中只有16项。对于其余的任务,研究人员写道,"成功率大于0表明模型拥有解决该任务的能力。"
因此,在某个任务上11次失败被视为论文中模型能力的证据。这种模型"拥有解决任务能力"的证据包括18项任务,模型在这些任务上超过一半的12次试验中失败,另有14项任务中模型在25%到50%的试验中失败。
过去表现与未来展望
确实,在所有这些情况下,模型在某种程度上确实展示了被测试的能力。但模型无法可靠地执行该任务意味着,在实践中,它对于大多数用例来说性能不够好。任何可能成为"统一的通用视觉基础模型"的未来模型都必须能够在这些测试中取得更高的一致性。
虽然研究人员承认Veo 3的表现"还不完美",但他们指出"从Veo 2到Veo 3的持续改进",暗示未来的视频模型"将成为视觉的通用基础模型,正如LLMs对语言所做的那样"。研究人员确实有一些数据支持这一论点。
例如,在数千次视频生成的定量测试中,Veo 3能够72%的时间反映随机模式的水平翻转,而Veo 2则为0%。Veo 3在边缘检测、物体提取和迷宫解决等任务上也表现出比Veo 2更小但仍然令人印象深刻的改进。
然而,正如人们所说,过去的表现并不预示未来的结果。从我们目前的观点来看,很难知道像Veo 3这样的视频模型是否准备在一致性方面看到指数级的改进,或者是否正在接近收益递减的拐点。
与大语言模型的比较
与产生幻觉的LLMs的经验也表明,模型有时生成正确结果与升级后的模型始终生成正确结果之间通常存在巨大差距。弄清楚视频模型在给出相同基本提示时失败或成功的时间、原因和方式,并非一个简单的问题,而且未来的模型不太可能很快注定解决这个问题。
正如今天生成式视频模型令人印象深刻一样,这类测试中显示的不一致结果证明,在它们能够被认为是对世界进行广泛推理之前,还有很长的路要走。
技术评估的挑战
评估AI模型的能力比表面上看起来要复杂得多。研究人员采用的"成功率大于零即证明能力"的方法虽然有其合理性,但它忽略了一个关键事实:在实际应用中,可靠性往往比偶尔的成功更重要。
以自动驾驶为例,一个在99%的情况下能够正确识别交通标志的系统,在1%的情况下可能致命。同样,一个在迷宫任务中只有10%成功率的AI助手,实际上无法帮助用户解决迷宫问题。
这种评估方法也反映了AI研究中的一个更广泛趋势:将模型的"能力"与其实用性混为一谈。模型可能"有能力"执行任务,但如果这种能力不稳定且不可靠,那么它实际上无法被有效利用。
未来发展方向
尽管存在这些局限性,AI视频模型的发展仍然令人鼓舞。从Veo 2到Veo 3的改进表明,这一领域正在取得实质性进展。未来的研究可能会集中在以下几个方面:
提高一致性:开发能够更稳定地执行任务的模型,减少表现上的波动。
更好的物理理解:改进模型对物理世界基本原理的理解,使其能够更准确地模拟现实世界的行为。
更全面的评估方法:开发更严格的评估标准,不仅考虑模型是否能够执行任务,还考虑其执行任务的可靠性和效率。
多模态整合:将视频生成与语言、音频等其他模态更好地整合,创建更全面的AI系统。
结论
AI视频模型在物理推理任务上的表现呈现出双面性。一方面,它们在某些任务上展现出令人印象深刻的能力,表明它们确实从训练数据中学到了一些关于物理世界的知识。另一方面,它们在其他任务上的频繁失败和不一致表现,表明它们离真正理解和模拟物理世界还有很长的路要走。
Google DeepMind的研究人员对Veo 3的乐观展望可能是正确的——视频模型确实可能成为未来视觉的基础模型。然而,这一道路比一些支持者所承认的要长得多,需要解决许多技术和评估上的挑战。随着这一领域的继续发展,重要的是保持批判性思维,既不过分夸大当前成就,也不低估长期潜力。