在人工智能视频编辑领域,一场由阿里通义万相引领的技术革新正在悄然发生。他们开源的VACE(Video AI Creation Engine)模型,标志着视频创作进入了一个全新的阶段。这次开源不仅是技术共享的典范,更是对整个行业发展的一次强力推动。Wan2.1-VACE-1.3B支持480P分辨率,而Wan2.1-VACE-14B则支持480P和720P两种分辨率,满足了不同用户的需求。VACE的出现,旨在为用户提供一站式的视频创作体验,无需在各种模型和工具之间切换,即可完成从文本生成视频、图像参考生成,到局部编辑和视频扩展等多种复杂任务,从而极大地提高了创作效率和灵活性。
VACE模型最引人注目的特点在于其强大的可控重绘能力。它能够基于人体姿态、运动光流、结构保持、空间运动以及着色等多种控制信号生成视频内容。同时,VACE还支持基于主体和背景参考的视频生成,这意味着在视频生成之后,用户可以轻松调整人物的姿态、动作轨迹或场景布局,极大地提升了创作的自由度。
VACE模型背后的核心技术是其先进的多模态输入机制,它构建了一个统一的输入系统,可以同时处理文本、图像、视频、Mask以及各种控制信号。这种多模态输入的能力,使得VACE在视频编辑和生成方面具有极高的灵活性和适应性。具体来说,对于图像输入,VACE支持物体参考图或视频帧;对于视频输入,用户可以通过简单的抹除或局部扩展等操作,使用VACE重新生成视频内容;对于局部区域,用户可以通过0/1二值信号来精确指定需要编辑的区域;而对于控制信号,VACE则支持包括深度图、光流、布局、灰度、线稿和姿态等多种形式。
VACE的功能远不止于此,它还支持对视频中特定区域进行内容替换、增加或删除等操作,这为视频编辑提供了极大的便利。此外,VACE还可以在时间维度上根据任意片段或首尾帧补全整个视频的时长,以及在空间维度上对画面边缘或背景区域进行扩展生成。例如,用户可以使用VACE轻松实现背景替换,即在保留视频主体不变的前提下,依据Prompt更换背景环境,从而创造出全新的视觉效果。
得益于强大的多模态输入模块和Wan2.1的卓越生成能力,VACE能够轻松驾驭传统专家模型所能实现的各种功能,包括图像参考能力、视频重绘能力以及局部编辑能力等。更重要的是,VACE还支持多种单任务能力的自由组合,打破了传统专家模型各自为战的协作瓶颈。作为一个统一模型,VACE能够自然融合文生视频、姿态控制、背景替换、局部编辑等多种原子能力,而无需为每一个单一功能单独训练新的模型。
VACE的灵活组合机制不仅大幅简化了创作流程,同时也极大地拓展了AI视频生成的创意边界。例如,通过组合图片参考与主体重塑功能,用户可以轻松实现视频中物体的替换;通过组合运动控制与首帧参考功能,则可以实现静态图片的姿态控制;而通过组合图片参考、首帧参考、背景扩展与时长延展功能,用户可以将竖版图片扩展为横屏视频,并在其中加入参考图片中的元素,从而创造出更具吸引力的视觉内容。
为了更好地支持各种视频生成和编辑任务,VACE提出了一个灵活统一的输入范式,即视频条件单元VCU(Video Condition Unit)。通过对四类常见任务(文生视频、图生视频、视频生视频、局部视频生视频)的输入形态进行深入分析和总结,VCU将多模态的各类上下文输入统一归纳为文本、帧序列和mask序列三大形态,从而在输入形式上统一了各类视频生成与编辑任务。VCU的帧序列和Mask序列在数学上可以相互叠加,这为多任务的自由组合创造了有利条件。
在技术实现方面,VACE需要解决的一个关键问题是如何将多模态输入统一编码为扩散Transformer可以处理的token序列。为了解决这个问题,VACE对VCU输入中的Frame序列进行概念解耦,将其分为需要原封不动保留的RGB像素(不变帧序列)和需要根据提示重新生成的内容(可变帧序列)。然后,VACE分别对这三类输入(可变帧、不变帧、Mask)进行隐空间编码。其中,可变帧和不变帧通过VAE被编码到与DiT模型噪声维度一致的空间,通道数为16;而mask序列则通过变形和采样操作,被映射到时空维度一致、通道数为64的隐空间特征。最后,VACE将Frame序列和mask序列的隐空间特征合一,并通过可训练参数映射为DiT的token序列。
在训练策略的选择上,VACE对比了全局微调与上下文适配器微调两种方案。全局微调通过训练全部DiT参数,理论上可以取得更快的推理速度;而上下文适配器微调方案则是固定原始的基模型参数,仅选择性地复制并训练一些原始Transformer层作为额外的适配器。实验结果表明,两者在验证损失上差异不大,但上下文适配器微调具有更快的收敛速度,并且可以有效避免基础能力丢失的风险。因此,本次开源版本最终采用了上下文适配器微调方法进行训练。通过对本次发布的VACE系列模型进行定量评测,可以看出,相比之前的1.3Bpreview版本,模型在多个关键指标上均有显著提升。
总的来说,阿里通义万相此次开源的VACE模型,无疑为人工智能视频编辑领域带来了新的活力。其强大的功能、灵活的组合机制以及高效的训练策略,都为未来的视频创作提供了更多的可能性。随着技术的不断发展和完善,我们有理由相信,VACE将在视频编辑领域发挥越来越重要的作用,为用户带来更加便捷、高效和创新的创作体验。此次开源不仅加速了AI技术在视频领域的普及,也预示着一个全新的创作时代的到来。通过社区的共同努力,VACE有望成为推动视频内容创新和技术进步的关键力量。