在AI视频生成领域,一项名为长上下文调整(Long Context Tuning,LCT)的创新技术正悄然改变着游戏规则。长期以来,AI生成的视频虽然在逼真度上不断提升,但总给人一种缺乏“灵魂”的感觉。LCT技术的出现,使得AI视频生成模型能够像电影导演一样,驾驭多镜头叙事,从而创造出更具吸引力和连贯性的故事场景。这项技术模拟了电影制作中多镜头切换的艺术,为AI视频带来了前所未有的叙事深度和情感表达。
过去,即使是像SoRA、Kling、Gen3这样的顶尖AI视频生成模型,也只能生成长达一分钟的逼真单镜头视频。然而,现实世界的叙事视频,如电影场景,通常由多个镜头组成,以捕捉同一事件的不同视角。以电影《泰坦尼克号》为例,杰克和露丝在甲板上相遇的经典场景,就包含了杰克回头的特写、露丝说话的中景、露丝走向杰克的广角镜头,以及杰克从背后拥抱露丝的特写等多个镜头。要生成这样的场景,需要确保视觉元素(如人物特征、背景、光线和色调的一致性)和时间动态(如人物动作的节奏和相机运动的平滑度)在不同镜头之间保持高度的连贯性,从而保证叙事的流畅性。这对于AI模型来说,是一个巨大的挑战。
为了解决单镜头生成和多镜头叙事之间的差距,研究人员提出了多种方法。一些方法依赖于输入关键的视觉元素(如人物身份和背景)来强制保持跨镜头的视觉一致性,但这种方法难以控制光线和色调等更抽象的元素。另一些方法则先生成一组连贯的关键帧,再利用图像到视频(I2V)模型独立合成每个镜头,但这又难以保证镜头之间的时间一致性,并且稀疏的关键帧也限制了条件的有效性。这些方法在一定程度上提高了AI视频的质量,但仍然无法完全满足多镜头叙事的需求。
LCT技术的出现,正是为了克服这些局限性。它如同为预训练的单镜头视频扩散模型安装了一个“超强大脑”,使其能够处理更长的上下文信息,并直接从场景级别的视频数据中学习镜头间的连贯性。LCT的核心在于其创新的设计:
- 全注意力机制的扩展:LCT将原本应用于单个镜头的全注意力机制扩展到包含场景内的所有镜头。这意味着模型在生成视频时,能够同时“关注”整个场景的所有视觉和文本信息,从而更好地理解和维护跨镜头的依赖关系。这种全局的视角使得模型能够更好地把握场景的整体氛围和叙事节奏。
- 交错的3D位置嵌入:为了让模型能够区分不同镜头中的token(文本和视频的基本单元),LCT引入了一种交错的3D旋转位置嵌入(RoPE)。这就像给每个镜头和其内部的token都打上了独特的“标签”,使得模型既能识别每个镜头的独立性,又能理解它们在整个场景中的相对位置关系。通过这种方式,模型能够更好地理解镜头之间的空间关系和时间顺序。
- 异步噪声策略:LCT创新性地为每个镜头应用独立的扩散时间步。这使得在训练过程中,模型能够学习不同镜头之间的动态依赖关系,并更有效地利用跨镜头的信息。例如,当一个镜头的噪声水平较低时,它可以自然地作为视觉信息的丰富来源,指导其他噪声较高的镜头的去噪过程。这种策略也为后续的视觉条件输入和联合生成提供了便利。通过异步噪声策略,LCT模型能够更好地平衡不同镜头之间的信息,从而生成更加连贯和自然的视频。
实验结果表明,经过LCT调整的单镜头模型在生成连贯的多镜头场景方面表现出色,并展现出一些令人惊喜的新能力。例如,它可以根据给定的角色身份和环境图像进行组合生成,即使模型之前没有接受过此类任务的专门训练。此外,LCT模型还支持自回归的镜头扩展,无论是连续的单镜头延伸还是带有镜头切换的多镜头扩展都可以实现。这项特性对于长视频的创作尤其有用,因为它将长视频生成分解为多个场景片段,方便用户进行交互式修改。
更进一步,研究人员还发现,在LCT之后,具有双向注意力的模型可以进一步微调为上下文因果注意力。这种改进的注意力机制在每个镜头内部仍然保持双向关注,但在镜头之间,信息只能从先前的镜头流向后续镜头。这种单向的信息流使得在自回归生成过程中可以高效地利用KV-cache(一种缓存机制),从而显著降低计算开销。通过上下文因果注意力,LCT模型能够在保证生成质量的同时,提高计算效率。
LCT技术的应用前景十分广阔。它可以直接应用于短片制作,实现场景级的视频生成。更令人兴奋的是,它还催生了交互式多镜头导演、单镜头扩展以及零样本的组合生成等多种新兴能力,即使模型从未针对这些特定任务进行过训练。例如,用户可以通过交互式界面,像电影导演一样,自由切换镜头、调整镜头角度和节奏,从而创作出个性化的视频作品。
以短片制作为例,LCT技术允许创作者将复杂的故事情节分解为多个场景,并为每个场景编写详细的描述。模型随后会根据这些描述生成一系列连贯的镜头,这些镜头在视觉风格和叙事节奏上保持一致,共同构成一个完整的短片。这种方法不仅大大降低了视频创作的门槛,还为创作者提供了更大的创作自由。
再比如,在教育领域,LCT技术可以用于创建生动有趣的教学视频。教师可以利用LCT模型生成包含多个角度和视角的讲解视频,帮助学生更好地理解抽象的概念。例如,在讲解几何学时,LCT模型可以生成从不同角度展示几何图形的视频,从而帮助学生更好地理解图形的性质。
在广告领域,LCT技术可以用于创建更具吸引力的广告片。广告商可以利用LCT模型生成包含多个场景和故事情节的广告片,从而更好地吸引消费者的注意力。例如,在宣传一款新型汽车时,LCT模型可以生成一系列展示汽车性能和外观的镜头,这些镜头共同构成一个引人入胜的故事,从而激发消费者的购买欲望。
长上下文调整(LCT)技术通过扩展单镜头视频扩散模型的上下文窗口,使其能够直接从数据中学习场景级的连贯性,为更实用的视觉内容创作开辟了新的道路。这项技术不仅提升了AI生成视频的叙事能力和连贯性,也为未来的长视频生成和交互式视频编辑提供了新的思路。LCT的出现,标志着AI视频生成技术进入了一个新的阶段,它将深刻影响未来的视频创作方式。
未来,我们可以期待LCT技术在以下几个方面取得更大的突破:
- 更高的生成质量:随着计算能力的提升和算法的优化,LCT模型将能够生成更加逼真、流畅的视频,从而进一步缩小AI生成视频与真实视频之间的差距。
- 更强的可控性:未来的LCT模型将能够提供更精细的控制选项,允许用户更加精确地控制视频的内容、风格和节奏。这将使得用户能够创作出更符合自己需求的视频作品。
- 更广泛的应用领域:LCT技术将被应用于更多的领域,如游戏开发、虚拟现实、电影制作等。这将为这些领域带来新的可能性和机遇。
我们有理由相信,未来的视频创作将因为LCT等技术的进步而变得更加智能化和更具创造力。AI将不再仅仅是一个工具,而将成为创作者的合作伙伴,共同创造出更加精彩的视觉内容。