DisPose:北大等高校联合推出,革新人物图像动画质量的AI技术

7

在人工智能驱动的动画领域,人物图像的控制和质量一直是研究的重点。近日,由北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队联袂推出了一项名为DisPose的创新技术,旨在显著提升人物图像动画的质量和可控性。这项技术的核心在于从骨骼姿态和参考图像中提取有效的控制信号,从而在无需额外密集输入的情况下,实现对人物动画的精准控制和高质量生成。DisPose的出现,无疑为动画制作、虚拟现实、数字人等多个领域带来了新的可能性。

DisPose:技术原理与核心功能

DisPose的技术原理可以概括为姿态控制的分解与融合。它将姿态控制分解为两个关键部分:运动场引导和关键点对应。运动场引导通过生成密集运动场来提供区域级的动作指导,确保动画中人物动作的连贯性和自然性。关键点对应则通过提取参考图像中姿态关键点的扩散特征,并将这些特征转移到目标姿态,从而保持人物身份信息的一致性。

AI快讯

DisPose的主要功能包括:

  • 运动场引导:从骨骼姿态生成密集运动场,为视频生成提供区域级的动作一致性保障。通过预测角色每一部分的运动方向和幅度,确保动画中的动作流畅自然。
  • 关键点对应:提取并利用参考图像中姿态关键点的扩散特征,保持动画中人物身份信息的高度一致性。即使在不同的姿态下,人物的面部特征、身体比例等都能得到精确的保留。
  • 即插即用模块:DisPose被设计成一个即插即用的模块,可以无缝集成到现有的人物图像动画模型中。这意味着开发者无需对现有模型进行大规模的修改,即可享受到DisPose带来的性能提升。
  • 质量与一致性提升:通过混合ControlNet,DisPose能够显著改善生成视频的质量和外观一致性。动画中的人物不仅动作自然,而且画面清晰、色彩鲜艳,整体视觉效果更佳。
  • 无需额外密集输入:DisPose的一大亮点是不依赖于额外的密集输入(如深度图)。这大大降低了对参考角色和驱动视频之间身体形状差异的敏感性,提高了技术的通用性和易用性。

DisPose的技术细节

DisPose的技术实现涉及多个关键步骤,包括运动场估计、关键点特征提取、混合ControlNet和特征融合。

  1. 运动场估计

    • 稀疏运动场:首先,利用DWpose估计骨骼姿态,并通过关键点追踪运动位移,将运动信息表示为轨迹图。这种稀疏运动场为后续的密集运动场生成提供了基础。
    • 密集运动场:然后,通过条件运动传播(CMP)技术,基于稀疏运动场和参考图像预测密集运动场。密集运动场提供了更细致的运动信号,能够更准确地指导动画的生成。
  2. 关键点特征提取

    • 利用预训练的图像扩散模型提取参考图像的DIFT特征,并将这些特征与关键点对应起来,形成关键点特征图。这些特征图包含了人物的关键信息,如面部特征、身体轮廓等。
  3. 混合ControlNet

    • DisPose采用了混合ControlNet的设计,在训练期间进行更新,无需冻结现有模型的其他部分。这种设计使得DisPose能够轻松地集成到现有的动画模型中,而不会对原有模型的性能产生负面影响。
  4. 特征融合

    • 运动特征融合:通过特征融合层将稀疏和密集运动特征结合起来,生成最终的运动场引导信号。这种融合能够充分利用两种运动信息的优势,提高运动引导的准确性。
    • 关键点特征融合:通过多尺度点编码器将关键点特征与U-Net编码器的中间特征相结合,增强特征的语义对应。这种融合能够将人物的关键信息融入到动画的生成过程中,保持人物身份的一致性。
  5. 控制信号集成

    • 最后,将运动场引导和关键点对应作为额外的控制信号,注入到潜在的视频扩散模型中,生成准确的人物图像动画。通过这种方式,DisPose能够实现对人物动画的精准控制和高质量生成。

DisPose的应用前景

DisPose技术的应用前景十分广阔,可以应用于艺术创作、社交媒体、数字人和虚拟偶像、电影制作以及虚拟现实和增强现实等多个领域。

  • 艺术创作:艺术家可以利用DisPose创作出具有特定动作和表情的动态艺术作品,如动态绘画和数字雕塑。这项技术可以帮助艺术家将静态的艺术作品转化为动态的艺术作品,为艺术创作带来新的可能性。
  • 社交媒体:在社交媒体平台上,用户可以利用DisPose生成个性化的动态头像或者动态表情,增加互动的趣味性。这项技术可以帮助用户在社交媒体上更好地表达自己,增加社交互动的乐趣。
  • 数字人和虚拟偶像:DisPose可以用于创建和控制虚拟角色的动作和表情,应用于直播、视频会议或者作为虚拟偶像进行表演。这项技术可以帮助数字人和虚拟偶像更好地与观众互动,提高表演的真实感和吸引力。
  • 电影制作:在电影后期制作中,DisPose可以用于生成或修改角色的动作,提高制作效率。这项技术可以帮助电影制作人员更快速地完成特效制作,降低制作成本。
  • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,DisPose可以用于生成与用户互动的虚拟角色,提供更加自然和逼真的互动体验。这项技术可以帮助VR和AR应用提供更真实、更沉浸式的用户体验。

项目地址与资源

对于对DisPose技术感兴趣的开发者和研究人员,以下是项目的相关地址和资源:

通过这些资源,开发者和研究人员可以更深入地了解DisPose的技术原理和实现细节,并将其应用于自己的项目中。

DisPose的推出,无疑为人物图像动画领域注入了新的活力。它不仅提高了动画的质量和可控性,而且降低了对额外输入的需求,使得动画制作更加高效和便捷。随着技术的不断发展和完善,DisPose有望在更多领域得到应用,为人们带来更加丰富多彩的视觉体验。未来,我们可以期待DisPose在动画制作、虚拟现实、数字人等领域发挥更大的作用,推动相关产业的创新和发展。