MotionCanvas:港中文和 Adobe 等机构推出的可控图像到视频生成方法

5

在人工智能领域,图像到视频的生成技术一直备受关注。近日,香港中文大学、Adobe 研究院和莫纳什大学联合推出了名为 MotionCanvas 的创新方法,为这一领域带来了新的突破。MotionCanvas 能够将静态图像转化为具有丰富动态效果的视频,为视频制作、动画创作等领域提供了强大的工具。那么,MotionCanvas 究竟是如何实现这一功能的?它又有哪些独特的优势和应用场景呢?让我们一起深入了解一下。

MotionCanvas:让静态图像“动”起来

MotionCanvas 是一种图像到视频(I2V)生成方法,它最大的特点在于其强大的可控性。传统的 I2V 方法往往难以精确控制生成视频的运动轨迹和物体行为,而 MotionCanvas 通过引入运动设计模块,让用户能够直观地在图像上规划相机运动和物体运动,从而实现复杂的镜头设计。这意味着,用户可以像导演一样,精确地控制视频中每一个元素的运动,创作出更具创意和表现力的作品。

更重要的是,MotionCanvas 还具备 3D 感知的运动控制能力。它能够将用户在 3D 场景空间中的运动意图准确地翻译为 2D 屏幕空间的控制信号,驱动视频扩散模型生成高质量的视频。这种 3D 感知的运动控制,使得生成的视频更具真实感和空间感,让观众仿佛身临其境。

AI快讯

MotionCanvas 的核心功能

MotionCanvas 的强大功能,主要体现在以下几个方面:

  1. 联合控制相机和物体运动:MotionCanvas 允许用户同时控制相机和物体的运动。用户可以在输入图像上直观地设计相机的运动路径,例如平移、旋转、变焦等。同时,用户还可以控制物体的全局运动,例如移动、缩放等,甚至可以控制物体的局部运动,例如手臂摆动等。这种联合控制的能力,为视频创作提供了极大的灵活性。

  2. 3D感知的运动控制:MotionCanvas 基于深度估计和运动信号转换模块,能够实现 3D 场景空间中的运动设计。这意味着,用户可以在一个虚拟的 3D 空间中设计运动轨迹,而 MotionCanvas 会自动将其转换为 2D 屏幕空间的运动信号,生成具有 3D 感知效果的视频。这种 3D 感知的运动控制,让生成的视频更具真实感和空间感。

  3. 长视频生成:MotionCanvas 支持生成任意长度的视频。与一些只能生成短视频的 I2V 方法不同,MotionCanvas 能够生成具有复杂运动轨迹和连续镜头设计的长视频。这使得 MotionCanvas 能够应用于更广泛的视频创作场景。

  4. 多样化的应用场景:MotionCanvas 不仅可以用于专业的视频制作,还可以应用于简单的视频编辑任务。例如,用户可以使用 MotionCanvas 将一个视频的运动风格转移到另一个视频上,或者基于初始帧编辑生成新的视频。这种多样化的应用场景,使得 MotionCanvas 成为一个非常实用的工具。

MotionCanvas 的技术原理

MotionCanvas 的强大功能,离不开其先进的技术原理。MotionCanvas 主要由以下几个模块组成:

  1. 运动设计模块:这是 MotionCanvas 的核心模块之一。用户通过该模块在 3D 场景空间中设计相机运动和物体运动。相机运动基于指定关键帧的相机姿态实现,物体运动则通过场景锚定的边界框和稀疏点轨迹定义。这意味着,用户可以通过简单直观的操作,精确地控制视频中每一个元素的运动。

  2. 运动信号转换模块:该模块负责将用户在 3D 场景空间中设计的运动意图转换为 2D 屏幕空间中的运动信号。模块基于深度估计和相机参数估计,将 3D 相机路径转换为 2D 点轨迹,将场景锚定的边界框和点轨迹转换为屏幕空间中的信号。这一模块是实现 3D 感知运动控制的关键。

  3. 运动条件视频生成模型:该模型基于预训练的 DiT(Diffusion Transformer)模型,并对其进行微调,使其能够根据屏幕空间中的运动条件生成视频。模型基于编码点轨迹和边界框序列,作为条件信号输入到视频生成模型中,生成符合用户意图的视频。

  4. 自回归生成:为了生成更长的视频,MotionCanvas 采用了自回归生成的方式。它将生成的视频片段作为后续生成的条件,逐步生成连续的视频内容,从而避免直接生成长视频可能导致的运动不连续性问题。这种自回归生成的方式,保证了生成视频的流畅性和连贯性。

MotionCanvas 的应用前景

MotionCanvas 的出现,为视频制作、动画创作等领域带来了新的可能性。它可以应用于以下几个方面:

  1. 电影与视频制作:MotionCanvas 可以帮助电影制作人员和视频创作者快速设计复杂镜头,将静态图像转化为动态视频,用于广告、宣传等,从而提升视觉吸引力。例如,可以使用 MotionCanvas 将一张风景照片转化为一段延时摄影视频,或者将一张产品照片转化为一段展示产品功能的动态视频。

  2. 动画创作:MotionCanvas 可以用于生成动画预览和角色动作,从静态故事板或图像中提取动态效果,从而提高创作效率。例如,动画师可以使用 MotionCanvas 将一张角色设计图转化为一段角色运动的动画,或者将一个故事板转化为一段动画预览。

  3. VR/AR体验:MotionCanvas 可以为虚拟和增强现实应用生成动态场景,增强用户沉浸感,支持实时交互。例如,开发者可以使用 MotionCanvas 将一张虚拟场景的图像转化为一段动态的虚拟场景,让用户可以在 VR/AR 环境中体验更加真实的场景。

  4. 游戏开发:MotionCanvas 可以用于制作游戏过场动画和动态场景,提升游戏叙事性和视觉效果,丰富玩家体验。例如,游戏开发者可以使用 MotionCanvas 将一张游戏场景的概念图转化为一段动态的游戏场景,或者将一段游戏剧情的文字描述转化为一段游戏过场动画。

  5. 教育与培训:MotionCanvas 可以将静态教学图像转化为动态视频,用于课堂讲解和专业模拟训练,从而提高教学趣味性和效果。例如,教师可以使用 MotionCanvas 将一张生物解剖图转化为一段动态的生物解剖视频,或者将一张机械结构图转化为一段动态的机械结构演示视频。

结语

MotionCanvas 作为一种可控的图像到视频生成方法,具有强大的功能和广泛的应用前景。它不仅可以帮助视频创作者和动画师提高创作效率,还可以为 VR/AR 体验、游戏开发、教育与培训等领域带来新的可能性。随着人工智能技术的不断发展,相信 MotionCanvas 将在未来发挥更大的作用,为我们的生活带来更多的便利和乐趣。