AI视频模型的现实世界推理能力:突破还是幻象?

1

在过去的几个月里,许多AI支持者对生成式视频模型及其展现出的对现实世界物理特性的有限涌现知识越来越感兴趣。这种学习能力可能支撑起一个强大的所谓'世界模型',这将代表生成式AI在实际现实世界能力方面的一项重大突破。然而,最新研究表明,当前的AI视频模型在多种物理推理任务上的表现高度不一致,引发了对其实际能力的质疑。

研究背景:从语言到视觉的跨越

大型语言模型(LLM)在自然语言处理领域取得的突破性进展,让研究人员开始思考:视觉领域是否也能出现类似的'统一基础模型'?Google DeepMind的研究人员在其论文《视频模型是零样本学习者和推理者》中试图用科学严谨的方法来评估视频模型究竟能在多大程度上从训练数据中学习现实世界。

他们使用了Google的Veo 3模型生成了数千个视频,测试其在数十个与感知、建模、操作和推理现实世界相关的任务中的能力。研究人员大胆宣称,Veo 3'能够解决各种它没有明确训练过的任务'(即标题中的'零样本'部分),并认为视频模型'正朝着成为统一的通用视觉基础模型的方向发展'。

AI研究进展

测试结果:喜忧参半的表现

成功案例:令人印象一致的完美表现

在研究人员测试的数十项任务中,Veo 3确实在一些任务上取得了令人印象深刻且一致的结果。例如,该模型能够可靠地生成机械手开罐或抛接球等 plausible 视频内容,在12次试验中表现一致。Veo 3在图像去模糊、去噪、填充复杂图像中的空白区域以及检测图像中物体边缘等任务上也表现出完美或接近完美的结果。

这些成功案例表明,AI视频模型在某些特定任务上已经达到了相当高的水平,能够准确模拟现实世界的某些物理特性和操作。

失败案例:高失败率的'能力证明'

然而,在其他任务上,模型的表现则更加不稳定。例如,当要求生成视频突出显示网格上的特定书写字符时,模型在12次试验中有9次失败。当要求模拟本生 burner 点燃并燃烧一张纸时,模型同样有9次失败。当要求解决一个简单的迷宫时,模型在12次试验中有10次失败。当要求通过按顺序弹出标记的气泡来对数字进行排序时,模型有11次失败。

令人惊讶的是,在研究人员看来,上述所有例子并非失败证据,而是模型能力的体现。根据论文中的'失败案例'标准,Veo 3必须在所有12次试验中都失败某项测试任务,才会被列为失败案例,这在62项测试任务中只有16项。对于其余任务,研究人员写道,'成功率大于0表明模型拥有解决该任务的能力'。

因此,在特定任务中12次试验有11次失败,在论文中被视为模型能力的证据。这种模型'拥有解决任务能力'的证据包括18项模型在超过一半的12次试验中失败的任务,另有14项模型在25%到50%的试验中失败的任务。

评判标准:从'偶尔成功'到'完全可靠'

是的,在所有这些情况下,模型在技术上确实在某种程度上展示了被测试的能力。但模型无法可靠地执行该任务意味着,在实践中,它对大多数用例来说性能不够好。任何可能成为'统一的通用视觉基础模型'的未来模型都必须能够在这类测试中取得高得多的一致性。

尽管研究人员承认Veo 3的表现'还不完美',但他们指出从Veo 2到Veo 3有'持续改进',并暗示未来的视频模型'将像LLM对语言一样,成为视觉的通用基础模型'。研究人员确实有一些数据支持这一论点。

AI模型对比

例如,在数千次视频生成的定量测试中,Veo 3能够72%的时间反映随机模式的水平翻转,而Veo 2的这一比例为0%。Veo 3在边缘检测、物体提取和迷宫 solving 等任务上相比Veo 2也表现出较小但仍然令人印象深刻的一致性改进。

然而,正如人们所说,过去的表现并不能预示未来的结果。从我们目前的角度来看,很难知道像Veo 3这样的视频模型是否即将看到一致性的指数级改进,或者是否正在接近一个收益递减的拐点。

经验教训:从语言模型到视频模型的启示

与经常编造事实的LLM的经验也表明,模型'有时生成正确结果'与升级后的模型'始终生成正确结果'之间往往存在巨大差距。弄清楚视频模型在获得相同基本提示时失败或成功的原因、方式和时机,并非一个简单的问题,而且未来的模型也不太可能很快注定要解决这个问题。

从'部分正确'到'完全可靠'的鸿沟

语言模型的发展历史表明,从'偶尔正确'到'高度可靠'之间存在一条艰难的道路。早期的语言模型可能能够生成一些语法正确的句子,但经常出现事实错误、逻辑不一致或上下文不相关的问题。经过多年的发展和训练方法的改进,现代LLM才能够在大多数情况下提供准确、一致和有用的回应。

视频模型似乎正处于类似的早期阶段。它们能够在某些特定任务上展示出令人印象深刻的能力,但无法在类似条件下可靠地重复这些表现。这种不一致性使得它们无法在需要高可靠性的实际应用中部署,如自动驾驶、机器人控制或医疗诊断等关键领域。

物理推理的特殊挑战

与语言处理不同,物理推理涉及对现实世界复杂动态的理解,这需要模型掌握因果关系、物理定律和时空连续性等概念。这些概念对人类来说似乎是直观的,但对AI系统来说却极其难以习得。

例如,当AI模型生成一个物体掉落的视频时,它可能能够正确模拟重力效应,但如果要求它解释为什么物体会掉落而不是上升,或者预测物体在不同介质中的行为,其表现可能会急剧下降。这种对物理现象的表面理解而非深层理解,是当前AI视频模型面临的核心挑战之一。

未来展望:视频模型的进化之路

尽管今天的生成式视频模型令人印象深刻,但这种测试中显示的不一致结果证明,在它们能够被说成是对世界进行广泛推理之前,还有很长的路要走。然而,这并不意味着视频模型没有发展潜力或实用价值。

渐进式改进的潜力

从Veo 2到Veo 3的改进表明,视频模型正在稳步发展。如果这种进步能够持续下去,我们可能会看到未来几年内模型性能的显著提升。这种改进可能来自于多个方面:更大的训练数据集、更先进的架构设计、更好的训练方法以及对物理世界更深入的建模。

专业化应用的前景

在成为通用视觉基础模型之前,视频模型可能会在特定领域找到应用。例如,在电影制作、游戏开发、虚拟现实和增强现实内容创建等领域,即使模型在某些物理推理任务上表现不一致,其生成视觉内容的能力仍然具有巨大价值。

此外,随着模型的发展,可能会出现'专家系统',即针对特定物理推理任务优化的专门模型,这些模型可以与更通用的视频模型协同工作,提供更准确和一致的视觉内容生成。

结论:理性看待当前AI视频模型的能力

AI视频模型代表了计算机视觉领域令人兴奋的发展方向,它们能够生成令人惊叹的视觉内容,并在某些任务上展现出对现实世界物理特性的理解。然而,将'偶尔成功'视为模型能力的评判标准,可能会对技术的实际能力和局限性产生误解。

要实现真正的'世界模型',AI系统需要在各种条件下稳定、一致地表现,而不仅仅是在受控环境中偶尔成功。这需要研究人员在模型架构、训练方法和评估标准上进行创新,以缩小当前AI视频模型与理想世界模型之间的差距。

尽管如此,AI视频模型的进步仍然值得期待。随着技术的不断发展,我们可能会看到这些模型逐渐克服当前的局限性,最终实现与现实世界物理特性更准确、一致的模拟。在这一过程中,保持对技术能力的清醒认识和对局限性的坦诚评估,将有助于引导AI视频模型朝着真正有益的方向发展。