KlingAI Avatar 2.0:5分钟唱跳视频一键生成,数字人告别'面瘫'时代

1

在人工智能飞速发展的今天,视频生成领域迎来了一项令人瞩目的创新。快手旗下可灵AI(KlingAI)正式发布其数字人模型Avatar 2.0,这一突破性技术彻底改变了人们对数字人的传统认知。只需输入一张人物照片和一段音乐音频,用户即可一键生成长达5分钟的唱歌视频,数字人不再是僵硬的"对口型"傀儡,而是能够随旋律自然扬眉、眼神含笑、肢体起伏的"表演者"。这一技术的推出,标志着AI内容创作从"静态"向"动态叙事"的重大跃进。

核心创新:从音频到情感表演的智能跃迁

Avatar 2.0的核心突破在于其多模态导演模块(MLLM Director),这一创新性设计融合了多模态大语言模型(MLLMs)的强大能力,将用户输入的三要素——图像、音频和文本提示——转化为一条连贯且富有表现力的故事线。

该系统的工作原理十分精妙:首先,它从音频中精确提取语音内容与情感轨迹,例如在明快旋律时注入"兴奋"情绪,在说唱段落时同步鼓点节奏;同时,系统从单张照片中识别人像特征与场景元素,并融入用户提供的文本提示,如"镜头缓慢上移"或"手臂有节奏摆动"。最终,通过文本跨注意力层注入视频扩散模型,生成全局一致的"蓝图视频",确保整段内容节奏流畅、风格统一。

与前代产品相比,Avatar 2.0在表情控制上实现了质的飞跃。数字人能够自然流露笑、怒、疑惑、强调等多种情绪,彻底解决了早期AI人物的"面瘫