在过去的几个月里,许多AI支持者对生成式视频模型及其展现出的对现实世界物理特性的有限涌现知识越来越感兴趣。这种学习能力可能支撑一个稳健的所谓"世界模型",代表着生成式AI在实际现实世界能力方面的一次重大突破。
最近,Google DeepMind研究团队试图通过科学严谨的方法,测试视频模型从训练数据中学习现实世界的能力。在其直言不讳的论文《视频模型是零样本学习者和推理者》中,研究人员使用Google的Veo 3模型生成了数千个视频,旨在测试其在感知、建模、操作和推理现实世界相关任务上的能力。
研究背景与方法
DeepMind的研究人员声称,Veo 3"能够解决各种它没有明确接受训练的任务"(这是标题中"零样本"部分的含义),并且视频模型"正成为统一的通用视觉基础模型"。然而,深入分析这些实验的实际结果,研究人员似乎对当今的视频模型采取了某种曲线评分,并假设未来的进步将解决当前许多高度不一致的结果。
研究人员测试了数十项任务,Veo 3在其中一些任务上取得了令人印象深刻且一致的结果。例如,该模型能够可靠地生成机器人手开罐子或抛接球等 plausible 视频动作,在12次试验中表现一致。Veo 3在图像去模糊或去噪、填充复杂图像中的空白区域以及检测图像中物体边缘等任务上也表现出完美或接近完美的结果。
不一致的表现
然而,在其他任务上,模型表现出更加多变的结果。例如,当被要求生成突出显示网格上特定书写字符的视频时,模型在12次试验中有9次失败。当被要求模拟本生 burner 点燃并燃烧一张纸时,同样有9次失败。当被要求解决简单迷宫时,12次试验中有10次失败。而当被要求通过按顺序弹出标记的气泡来对数字进行排序时,12次试验中有11次失败。
对于研究人员来说,以上所有例子都不是失败的证据,而是模型能力的标志。要在论文的"失败案例"下列出,Veo 3必须在所有12次试验中都未能通过测试的62个任务中的16个任务中失败。对于其余任务,研究人员写道,"成功率大于0表明模型拥有解决该任务的能力"。
因此,在论文中,12次试验中11次失败被视为模型能力的证据。这种模型"拥有解决任务的能力"的证据包括18个模型在超过一半的12次试验中失败的任务,以及另外14个模型在25%至50%的试验中失败的任务。
评估标准争议
确实,在所有这些情况下,模型在某种程度上技术上展示了被测试的能力。但模型无法可靠地执行该任务意味着,在实践中,它对大多数用例来说性能不够高。任何可能成为"统一的通用视觉基础模型"的未来模型都必须能够在这些测试中取得更一致的成功。
虽然研究人员承认Veo 3的表现"还远不完美",但他们指出"从Veo 2到Veo 3的一致性改进",暗示未来的视频模型"将像LLMs对语言那样,成为视觉的通用基础模型"。研究人员确实有一些数据支持这一论点。
例如,在数千次视频生成的定量测试中,Veo 3能够72%的时间反映随机模式的水平翻转,而Veo 2的这一比例为零。在边缘检测、物体提取和迷宫 solving 等任务上,Veo 3比Veo 2在一致性上显示出较小但仍令人印象深刻的改进。
未来发展路径
然而,正如人们所说,过去的表现并不预示未来的结果。从我们当前的角度来看,很难知道像Veo 3这样的视频模型是否即将看到一致性的指数级改进,或者正在接近一个收益递减的临界点。
对编造LLM的经验也表明,模型有时生成正确结果与升级后的模型始终生成正确结果之间存在巨大差距。弄清楚视频模型在给出相同基本提示时失败或成功的时间、原因和方式,并非一个简单的问题,而且未来的模型在短期内注定无法解决这个问题。
尽管当今的生成式视频模型令人印象深刻,但这种测试中显示的不一致结果表明,在它们能够被认为对世界进行广泛推理之前,还有很长的路要走。
技术挑战与机遇
AI视频模型面临的核心挑战在于从"偶尔成功"到"稳定可靠"的跨越。当前的模型虽然能够展示某些能力,但缺乏一致性,这使得它们在实际应用中价值有限。例如,一个能够偶尔成功解决迷宫的模型,无法被依赖用于实际导航系统;一个有时能够正确模拟物理过程的模型,无法用于需要精确预测的科学应用。
然而,这些挑战也带来了研究机遇。通过分析模型在哪些任务上表现一致,哪些任务上表现不一致,研究人员可以更好地理解当前AI系统的局限性,并指导未来的研究方向。例如,如果发现模型在处理特定类型的物理交互时特别困难,这可能表明需要更多的训练数据或新的架构方法。
行业影响与展望
AI视频模型的发展对多个行业具有深远影响。在娱乐行业,更准确的物理模拟可以创造更加逼真的虚拟世界;在制造业,精确的视觉模型可以改进机器人控制和自动化;在科学研究领域,可靠的世界模型可以帮助科学家更好地理解复杂系统。
然而,要实现这些应用,当前的AI视频模型需要克服其不一致性。这可能需要多方面的努力:改进训练数据的质量和多样性,开发新的模型架构,或者结合物理引擎等传统方法来增强模型的推理能力。
结论
DeepMind的研究揭示了当前AI视频模型在物理推理任务上的显著局限性。虽然Veo 3在某些任务上表现出色,但整体而言,其不一致的表现表明,要实现真正的"世界模型",还有很长的路要走。从8%的成功率到完全可靠的性能,这一跨越可能需要根本性的技术突破,而不仅仅是渐进式改进。
然而,这并不意味着AI视频模型没有价值。相反,这些发现为研究人员指明了需要改进的方向,并为行业设定了现实的期望。随着技术的进步,我们可以期待看到更加一致和可靠的AI视频模型,最终实现它们对现实世界准确建模的潜力。