Hallo3:复旦&百度开源,打造高动态与真实感肖像动画新纪元

4

在人工智能领域,肖像动画生成技术一直是一个备受关注的研究方向。近日,由复旦大学和百度联合推出的 Hallo3 框架,无疑为这一领域带来了新的突破。Hallo3 并非简单的图像处理工具,而是一个能够生成高度动态和逼真肖像动画的强大框架。它基于扩散变换器网络(Diffusion Transformer Networks),能够克服现有方法在处理非正面视角、动态对象渲染和生成沉浸式背景方面的种种挑战。想象一下,你可以轻松制作出各种角度的人物动画,让人物手持智能手机自然移动,甚至让背景也充满动态的篝火或拥挤的街道场景——这一切都变得触手可及。

那么,Hallo3 究竟有哪些令人惊艳的功能呢?

多视角动画生成:传统的肖像动画技术往往局限于正面视角,而 Hallo3 则打破了这一限制。无论是正面、侧面、俯视还是低角度,Hallo3 都能轻松应对,生成各种视角的动画肖像。这极大地拓展了肖像动画的应用范围,让创作更加自由。

动态对象渲染:人物肖像不再是静止的画面,Hallo3 能够处理肖像周围的动态对象,例如人物手持智能手机、麦克风,或者佩戴紧密贴合的物品。这些对象在视频序列中能够呈现真实的运动,让动画更加生动自然。

沉浸式背景生成:背景不再是单调的静态图像,Hallo3 能够生成具有动态效果的背景,例如前景中的篝火,或者背景中的拥挤街道场景。这些动态背景能够增强视频的真实感和沉浸感,让观众仿佛身临其境。

身份一致性保持:在长时间的动画中,保持人物面部特征的一致性至关重要。Hallo3 采用了先进的技术,能够在整个视频序列中保持肖像的身份一致性,确保人物的面部特征准确无误。

语音驱动的动画:Hallo3 能够基于语音音频驱动肖像的面部表情和嘴唇动作,实现高度同步的语音和面部动画。这让动画更加自然和逼真,仿佛人物真的在说话一样。

AI快讯

Hallo3 的技术原理是什么?它又是如何实现这些强大功能的呢?

Hallo3 的核心在于其预训练的变换器视频生成模型。该模型以 CogVideoX 模型为基础架构,利用 3D 变分自编码器(VAE)对视频数据进行压缩。模型将潜在变量与文本嵌入相结合,基于专家变换器网络进行处理。为了更好地控制生成过程,Hallo3 引入了三种条件机制:文本提示(ctext)、语音音频条件(caudio)和身份外观条件(cid)。这些条件信息主要通过交叉注意力(cross-attention)和自适应层归一化(adaLN)进行整合。

身份参考网络是 Hallo3 的另一大亮点。该网络利用因果 3D VAE 结合 42 层变换器层,从参考图像中提取身份特征,并将其嵌入到去噪潜在代码中。通过自注意力机制,模型能够增强对身份信息的表示和长期保持。此外,参考网络生成的视觉特征还会与去噪网络的特征进行融合,确保生成的面部动画在长时间序列中保持一致性和连贯性。

为了实现语音驱动的动画,Hallo3 采用了语音音频条件机制。首先,利用 wav2vec 框架提取音频特征,生成帧特定的音频嵌入。然后,通过线性变换层将音频嵌入转换为适合模型的表示。在去噪网络中,交叉注意力机制将音频嵌入与潜在编码进行交互,增强生成输出的相干性和相关性,确保模型能够有效地捕捉驱动角色生成的音频信号。

为了生成更长的视频,Hallo3 引入了视频外推技术。该技术将生成视频的最后几帧作为后续片段生成的输入,并利用 3D VAE 处理运动帧,生成新的潜在代码,从而实现时间一致的长视频推理。

Hallo3 的训练过程分为两个阶段。第一阶段,训练模型生成具有身份一致性的视频;第二阶段,扩展到音频驱动的视频生成,整合音频注意力模块。在推理过程中,模型接收参考图像、驱动音频、文本提示和运动帧作为输入,生成具有身份一致性和嘴唇同步的视频。

如果你对 Hallo3 感兴趣,可以通过以下链接了解更多信息:

那么,Hallo3 究竟有哪些应用场景呢?

游戏开发:Hallo3 可以为游戏中的角色生成动态的肖像动画,使角色在游戏中的表现更加自然和逼真,从而提升玩家的游戏体验。想象一下,游戏中的 NPC 不再是千篇一律的静态形象,而是拥有丰富表情和动作的鲜活角色,这将极大地增强游戏的沉浸感。

电影制作:Hallo3 可以生成逼真的角色动画,提升电影和动画的视觉效果和沉浸感。传统的动画制作需要耗费大量的人力和时间,而 Hallo3 则可以大大提高制作效率,降低制作成本,同时保证动画的质量。

社交媒体:Hallo3 可以为社交媒体用户生成动态头像,使用户的个人资料更加生动有趣,提升用户在社交媒体上的个性化体验。一个生动有趣的头像能够更好地展现用户的个性和魅力,吸引更多的关注。

在线教育:Hallo3 可以生成虚拟讲师的动画,让在线课程更加生动和有趣,提高学生的学习兴趣和参与度。虚拟讲师可以根据课程内容进行表情和动作的变化,让学生更容易理解和记忆知识点。

虚拟现实和增强现实:Hallo3 可以在 VR 和 AR 应用中生成虚拟角色,提供更加逼真的交互体验,增强用户的沉浸感和参与感。想象一下,在 VR 游戏中,你可以与栩栩如生的虚拟角色进行互动,这将带来前所未有的游戏体验。

总而言之,Hallo3 作为一款高动态与真实感肖像动画生成框架,具有广阔的应用前景。它的出现,不仅为人工智能领域带来了新的突破,也为游戏开发、电影制作、社交媒体、在线教育、虚拟现实和增强现实等领域带来了新的可能性。未来,随着 Hallo3 技术的不断发展和完善,相信它将在更多领域发挥重要作用,为人们的生活带来更多便利和乐趣。

Hallo3 的开源,也为广大的开发者和研究者提供了一个学习和研究的平台。通过参与 Hallo3 的项目,我们可以共同推动肖像动画生成技术的发展,为人工智能的未来贡献力量。让我们一起期待 Hallo3 在未来能够带来更多惊喜!