Goku:港大和字节联合推出的最新视频生成模型,开启AI视频创作新纪元

2

Goku,这个名字是不是让你想起了那位来自赛亚星球的超级英雄?没错,港大和字节联合推出的最新视频生成模型就叫这个名字。它不仅仅是一个名字,更是对视频生成领域的一次大胆创新。想象一下,只需输入几行文字,或者上传一张图片,就能轻松生成一段高质量的视频,这在以前简直是天方夜谭,但现在,Goku让这一切成为了现实。

AI快讯

Goku的核心优势在于其强大的图像和视频联合生成能力。它基于先进的rectified flow Transformer框架,支持文生视频、图生视频以及文生图等多种模式。这意味着,无论你是想将脑海中的创意转化为生动的影像,还是想将静态图片变成引人入胜的短片,Goku都能满足你的需求。更令人兴奋的是,Goku在广告视频制作方面的潜力,它能将制作成本降低到传统方法的百分之一,这对于预算有限的企业来说,无疑是一个巨大的福音。

Goku+是Goku模型的扩展版本,它专注于广告视频创作,能够快速生成高质量的广告视频,并且支持20秒以上的视频生成。更重要的是,Goku+生成的视频具有稳定的手部动作和丰富的面部及身体表情,这让虚拟数字人与产品的互动更加自然,从而增强广告的吸引力。无论是电商、品牌宣传、短视频广告还是产品展示,Goku+都能大显身手,显著提升创作效率。

那么,Goku究竟有哪些令人惊艳的功能呢?让我们一起来看看:

  • 文本到图像(Text-to-Image): 想象一下,你只需要输入一段文字描述,比如“一只可爱的猫咪在阳光下玩耍”,Goku就能根据你的描述生成一张高质量的图像。这张图像不仅细节丰富,而且与你的文字描述高度一致,仿佛你亲眼所见。

  • 文本到视频(Text-to-Video): 如果你想让文字动起来,Goku也能满足你。你只需要输入一段文字,比如“一辆跑车在蜿蜒的山路上飞驰”,Goku就能生成一段连贯的视频。这段视频不仅动作流畅,而且画面质量极高,让你仿佛身临其境。

  • 图像到视频(Image-to-Video): 如果你已经有了一张图片,但想让它更生动,Goku也能帮你实现。你只需要上传一张图片,比如一张风景照,Goku就能根据这张图片生成一段动态视频。这段视频能够保持图像的视觉风格和语义一致性,让静态的风景变得栩栩如生,非常适合动画和视频内容创作。

  • 广告视频生成(Goku+): 对于广告主来说,Goku+简直是福音。它可以根据文本描述生成高质量的广告视频,支持人物与产品的自然互动。更重要的是,Goku+可以将广告视频的制作成本降低100倍,生成的视频具有稳定的手部动作和丰富的面部表情,让你的广告更具吸引力。

  • 虚拟数字人视频生成: 如果你需要一个虚拟数字人来为你代言,Goku+也能帮你实现。它可以生成虚拟数字人的视频,具有高度的逼真感和自然的动作,非常适合虚拟主播、虚拟客服等场景。

  • 多模态生成: Goku最强大的地方在于它支持多种模态的生成任务,包括图像、视频和文本的联合生成。这意味着,你可以将图像、视频和文本混合在一起,创造出更丰富、更复杂的作品。通过共享潜在空间和全注意力机制,Goku能够无缝处理图像和视频的复杂时空依赖关系,让你的创作更加自由。

Goku之所以能够拥有如此强大的功能,离不开其背后的技术原理。让我们来深入了解一下:

  • 图像-视频联合VAE: Goku采用3D联合图像-视频变分自编码器(VAE),将图像和视频输入压缩到共享的潜在空间。这使得模型能够处理多种媒体格式,包括图像和视频,并在统一框架内进行表示,从而实现更高效的生成。

  • Transformer架构: Goku模型家族包含2B和8B参数的Transformer架构。这种架构基于全注意力机制,能够有效处理图像和视频的复杂时空依赖关系,从而实现高质量、连贯的输出。Transformer架构的强大之处在于它能够捕捉到图像和视频中的长期依赖关系,从而生成更逼真、更自然的视频。

  • 校正流公式: Goku基于Rectified Flow(RF)算法,通过线性插值在先验分布和目标数据分布之间进行训练。相比传统的扩散模型,这种方法展现出更快的收敛速度和更强的理论性质,从而提高了模型的训练效率。

  • 多阶段训练策略: Goku采用多阶段训练策略,包括图文语义对齐预训练、图像-视频联合训练,以及针对不同模态的微调。这种策略能够逐步提升模型的生成能力,确保在大规模数据集上的高效训练,从而让模型能够生成更复杂、更逼真的视频。

  • 大规模高质量数据集: 为了让Goku能够学习到更丰富的知识,研究人员构建了约3600万视频和1.6亿图像的大规模数据集,并采用多种数据过滤和增强技术来提高数据质量。这个数据集为模型训练提供了丰富的素材,让Goku能够生成各种各样的视频。

  • 高效的训练基础设施: 为了提高训练效率和稳定性,Goku的训练基础设施包括并行策略、细粒度激活检查点技术、容错机制以及ByteCheckpoint技术。这些技术能够显著提升训练效率和稳定性,让Goku能够在短时间内完成训练。

如果你对Goku感兴趣,可以访问以下链接了解更多信息:

Goku的应用场景非常广泛,它可以应用于以下领域:

  • 广告视频制作: Goku+能够根据文本描述生成高质量的广告视频,支持从文本直接生成视频、从产品图片生成人物互动视频,以及生成产品展示视频。这为广告主提供了更多的创作可能性,让他们能够以更低的成本制作出更具吸引力的广告。

  • 虚拟数字人视频生成: Goku+可以将文本转换为超现实的人类视频,生成超过20秒的视频,具有稳定的手部动作和极具表现力的面部及身体动作。这为虚拟主播、虚拟客服等场景提供了更多的可能性,让他们能够以更逼真的形象与用户互动。

  • 内容创作: Goku能够生成包括动画、自然风光、动物行为等多种场景的视频。比如,它可以生成一位时尚女性在东京街头漫步的视频,或者数只巨型猛犸象在雪地上行走的场景。这为艺术创作者提供了丰富的灵感和创作素材,让他们能够创作出更具创意、更具想象力的作品。

  • 教育与培训: Goku可以用于制作教育视频和培训课程,通过生成生动的视频内容,提高教育培训的效果和趣味性。比如,它可以生成一个关于恐龙时代的视频,让学生们更直观地了解恐龙的生活习性。

  • 娱乐产业: 在电影、电视剧、动画等娱乐产业中,Goku可用于内容制作和特效生成。它可以生成高质量的视频内容,为创作者提供更多可能性,让他们能够创作出更精彩、更震撼的作品。

总而言之,Goku的出现,无疑为视频生成领域带来了一场革命。它不仅降低了视频制作的成本,提高了创作效率,还为创作者提供了更多的可能性。相信在不久的将来,Goku将会在各个领域大放异彩,为我们的生活带来更多的惊喜。