EMO:阿里AI框架,让照片开口说话,视频生成迎来新纪元!

4

AI快讯

在人工智能领域,生成逼真且富有表现力的人像视频一直是一个备受关注的挑战。近日,阿里巴巴集团智能计算研究院的研究人员推出了一款名为EMO(Emote Portrait Alive)的创新框架,为这一领域带来了新的突破。EMO 是一种音频驱动的 AI 肖像视频生成系统,它能够仅凭一张参考图像和一段语音音频,就能创造出令人惊叹的、充满生机的人像视频。这不仅仅是技术上的进步,更是在探索如何让 AI 更懂人类的情感与表达。

EMO:让静态照片“活”起来

想象一下,你只需提供一张照片和一段音频,就能让照片中的人物开口说话,并且表情自然、头部动作协调,这不再是科幻电影中的场景。EMO 框架的核心优势在于其能够捕捉人类表情的细微差别和个体面部风格的多样性,从而生成高度逼真和富有表现力的动画。这意味着,即使是静态的照片,也能在 EMO 的驱动下,展现出前所未有的生动和个性。

EMO 的独特之处

与其他 AI 视频生成技术相比,EMO 有着显著的特点:

  • 告别 3D 建模,拥抱简易流程:传统的 AI 视频生成往往需要复杂的 3D 面部模型或预先录制的视频片段。而 EMO 则打破了这一限制,它只需要一张参考图像和一段音频,大大简化了生成流程,降低了使用门槛。
  • 捕捉情感的微妙之处:EMO 不仅仅是让人物“动”起来,更重要的是让人物“活”起来。它能够捕捉并再现人类面部表情的细微差别,包括那些微妙的微表情,让生成的视频更具感染力。
  • 音画同步,自然流畅:EMO 能够确保视频帧之间的过渡自然流畅,避免了面部扭曲或帧间抖动的问题,从而提高了视频的整体质量。这意味着,你不会看到任何突兀或不自然的画面。
  • 身份保持,忠于原貌:EMO 通过 FrameEncoding 模块,能够在视频生成过程中保持角色身份的一致性,确保角色的外观与输入的参考图像保持一致。这意味着,生成的视频仍然是你熟悉的那个人,而不是一个 AI 捏造的形象。
  • 稳定控制,避免崩溃:EMO 采用了速度控制器和面部区域控制器等稳定控制机制,以增强视频生成过程中的稳定性,避免视频崩溃等问题。这保证了用户能够获得可靠的生成结果。
  • 灵活的时长,无限可能:EMO 可以根据输入音频的长度生成任意时长的视频,为用户提供了灵活的创作空间。无论是几秒钟的短视频,还是几分钟的长篇对话,EMO 都能轻松应对。
  • 跨越语言和风格的界限:EMO 的训练数据集涵盖了多种语言和风格,包括中文和英文,以及现实主义、动漫和 3D 风格。这使得 EMO 能够适应不同的文化和艺术风格,满足不同用户的需求。

EMO 的技术原理

EMO 框架的强大功能背后,是其精妙的技术设计:

  1. 输入准备:用户提供一个参考图像(目标角色的静态肖像)和相应的音频输入(如说话或唱歌的声音)。这些输入将作为生成视频的基础。
  2. 特征提取:使用 ReferenceNet 从参考图像中提取特征。ReferenceNet 是一个与主网络(Backbone Network)结构相似的网络,它专注于从输入图像中提取详细的特征,包括面部轮廓、五官特征、发型等等。
  3. 音频处理:音频输入通过预训练的音频编码器处理,以提取音频特征。这些特征捕捉了语音的节奏、音调和发音等信息,这些信息将用来驱动视频中角色的面部表情和头部动作。音频编码器的选择至关重要,它需要能够准确地捕捉音频中的情感和语义信息。
  4. 扩散过程:在扩散过程中,主网络接收多帧噪声作为输入,并尝试在每个时间步骤中将这些噪声去噪成连续的视频帧。这个过程涉及到两个主要的注意力机制:Reference-Attention 和 Audio-Attention。
    • Reference-Attention:用于保持角色身份的一致性。它通过将当前帧的特征与参考图像的特征进行比较,来确保生成的视频在外观上与参考图像保持一致。
    • Audio-Attention:用于调制角色的动作。它通过将当前帧的特征与音频特征进行比较,来控制生成的视频中角色的面部表情和头部动作,使其与音频内容同步。
  5. 时间模块:为了处理时间维度并调整动作的速度,EMO 使用了时间模块。这些模块通过自注意力机制在帧内的特征上操作,以捕捉视频的动态内容,并确保连续帧之间的连贯性和一致性。时间模块的设计是 EMO 能够生成流畅视频的关键。
  6. 面部定位和速度控制:为了确保生成的角色动作的稳定性和可控性,EMO 使用了面部定位器(Face Locator)和速度层(Speed Layers)。
    • 面部定位器:通过轻量级卷积层编码面部边界框区域,用于精确地定位面部,并确保面部始终位于画面中心。
    • 速度层:通过将头部旋转速度嵌入到生成过程中来控制动作的速度和频率。速度层的引入使得用户可以调整视频中角色的动作幅度,从而实现更精细的控制。
  7. 训练策略:EMO 的训练分为三个阶段:图像预训练、视频训练和速度层集成。
    • 图像预训练阶段:主网络和 ReferenceNet 从单帧图像中学习,目的是让网络能够理解面部结构和特征。
    • 视频训练阶段:引入时间模块和音频层,以处理连续帧,目的是让网络能够学习如何生成流畅的视频,并使视频与音频同步。
    • 速度层集成阶段:只训练时间模块和速度层,以确保音频对角色动作的驱动能力,目的是让网络能够根据音频内容调整视频中角色的动作幅度。
  8. 生成视频:在推理阶段,EMO 使用 DDIM 采样算法生成视频片段。通过迭代去噪过程,最终生成与输入音频同步的肖像视频。

EMO 的应用前景

EMO 技术的应用前景非常广阔:

  • 个性化内容创作:EMO 可以用于创建个性化的短视频、动画表情包等内容,让用户能够更生动地表达自己的情感和想法。
  • 虚拟形象定制:EMO 可以用于创建虚拟形象,让用户能够在虚拟世界中拥有一个与自己相似或完全不同的身份。
  • 教育娱乐:EMO 可以用于制作教育视频、动画片等内容,让学习和娱乐更加生动有趣。
  • 数字营销:EMO 可以用于创建更具吸引力的广告和营销内容,提高品牌知名度和用户参与度。
  • AI 虚拟主播: EMO技术可以赋能AI 虚拟主播, 降低制作成本和难度, 提高内容产出效率。

EMO 面临的挑战与未来发展

尽管 EMO 已经取得了显著的进展,但仍然面临着一些挑战:

  • 生成视频的真实感:虽然 EMO 能够生成逼真的人像视频,但在某些情况下,生成的视频仍然会存在一些不自然之处,例如面部表情过于僵硬或头部动作过于机械。
  • 对复杂音频的处理能力:EMO 目前主要针对的是清晰的语音音频,对于包含背景音乐、噪声或其他复杂声音的音频,EMO 的处理能力还有待提高。
  • 对不同人种和风格的适应性:虽然 EMO 的训练数据集涵盖了多种语言和风格,但在处理某些特定人种或风格时,EMO 的表现可能仍然不够理想。

未来,EMO 的发展方向可能包括:

  • 提高生成视频的真实感:通过引入更先进的生成模型和训练技术,进一步提高生成视频的真实感,使其更加接近真实的人像视频。
  • 增强对复杂音频的处理能力:通过改进音频编码器和注意力机制,增强 EMO 对复杂音频的处理能力,使其能够处理包含背景音乐、噪声或其他复杂声音的音频。
  • 扩大训练数据集:通过扩大训练数据集的规模和多样性,提高 EMO 对不同人种和风格的适应性,使其能够更好地处理各种各样的人像视频生成任务。
  • 探索新的应用场景:探索 EMO 在更多领域的应用,例如虚拟现实、增强现实、游戏等,让 EMO 能够为人们的生活带来更多便利和乐趣。

EMO 的出现,无疑为 AI 视频生成领域注入了新的活力。我们有理由相信,随着技术的不断发展,EMO 将会变得更加强大,为我们带来更多惊喜。

结语

EMO 的诞生,是人工智能技术在视频生成领域的一次重要突破。它让我们看到了 AI 在理解和模拟人类情感与表达方面的巨大潜力。随着 EMO 技术的不断完善和应用,我们有理由期待,未来的数字世界将更加生动、个性化和充满人情味。