Goku：港大和字节联合推出的最新视频生成模型，开启AI视频创作新纪元

Goku，这个名字是不是让你想起了那位来自赛亚星球的超级英雄？没错，港大和字节联合推出的最新视频生成模型就叫这个名字。它不仅仅是一个名字，更是对视频生成领域的一次大胆创新。想象一下，只需输入几行文字，或者上传一张图片，就能轻松生成一段高质量的视频，这在以前简直是天方夜谭，但现在，Goku让这一切成为了现实。

AI快讯

Goku的核心优势在于其强大的图像和视频联合生成能力。它基于先进的rectified flow Transformer框架，支持文生视频、图生视频以及文生图等多种模式。这意味着，无论你是想将脑海中的创意转化为生动的影像，还是想将静态图片变成引人入胜的短片，Goku都能满足你的需求。更令人兴奋的是，Goku在广告视频制作方面的潜力，它能将制作成本降低到传统方法的百分之一，这对于预算有限的企业来说，无疑是一个巨大的福音。

Goku+是Goku模型的扩展版本，它专注于广告视频创作，能够快速生成高质量的广告视频，并且支持20秒以上的视频生成。更重要的是，Goku+生成的视频具有稳定的手部动作和丰富的面部及身体表情，这让虚拟数字人与产品的互动更加自然，从而增强广告的吸引力。无论是电商、品牌宣传、短视频广告还是产品展示，Goku+都能大显身手，显著提升创作效率。

那么，Goku究竟有哪些令人惊艳的功能呢？让我们一起来看看：

文本到图像（Text-to-Image）： 想象一下，你只需要输入一段文字描述，比如“一只可爱的猫咪在阳光下玩耍”，Goku就能根据你的描述生成一张高质量的图像。这张图像不仅细节丰富，而且与你的文字描述高度一致，仿佛你亲眼所见。
文本到视频（Text-to-Video）： 如果你想让文字动起来，Goku也能满足你。你只需要输入一段文字，比如“一辆跑车在蜿蜒的山路上飞驰”，Goku就能生成一段连贯的视频。这段视频不仅动作流畅，而且画面质量极高，让你仿佛身临其境。
图像到视频（Image-to-Video）： 如果你已经有了一张图片，但想让它更生动，Goku也能帮你实现。你只需要上传一张图片，比如一张风景照，Goku就能根据这张图片生成一段动态视频。这段视频能够保持图像的视觉风格和语义一致性，让静态的风景变得栩栩如生，非常适合动画和视频内容创作。
广告视频生成（Goku+）： 对于广告主来说，Goku+简直是福音。它可以根据文本描述生成高质量的广告视频，支持人物与产品的自然互动。更重要的是，Goku+可以将广告视频的制作成本降低100倍，生成的视频具有稳定的手部动作和丰富的面部表情，让你的广告更具吸引力。
虚拟数字人视频生成： 如果你需要一个虚拟数字人来为你代言，Goku+也能帮你实现。它可以生成虚拟数字人的视频，具有高度的逼真感和自然的动作，非常适合虚拟主播、虚拟客服等场景。
多模态生成： Goku最强大的地方在于它支持多种模态的生成任务，包括图像、视频和文本的联合生成。这意味着，你可以将图像、视频和文本混合在一起，创造出更丰富、更复杂的作品。通过共享潜在空间和全注意力机制，Goku能够无缝处理图像和视频的复杂时空依赖关系，让你的创作更加自由。

Goku之所以能够拥有如此强大的功能，离不开其背后的技术原理。让我们来深入了解一下：

图像-视频联合VAE： Goku采用3D联合图像-视频变分自编码器（VAE），将图像和视频输入压缩到共享的潜在空间。这使得模型能够处理多种媒体格式，包括图像和视频，并在统一框架内进行表示，从而实现更高效的生成。
Transformer架构： Goku模型家族包含2B和8B参数的Transformer架构。这种架构基于全注意力机制，能够有效处理图像和视频的复杂时空依赖关系，从而实现高质量、连贯的输出。Transformer架构的强大之处在于它能够捕捉到图像和视频中的长期依赖关系，从而生成更逼真、更自然的视频。
校正流公式： Goku基于Rectified Flow（RF）算法，通过线性插值在先验分布和目标数据分布之间进行训练。相比传统的扩散模型，这种方法展现出更快的收敛速度和更强的理论性质，从而提高了模型的训练效率。
多阶段训练策略： Goku采用多阶段训练策略，包括图文语义对齐预训练、图像-视频联合训练，以及针对不同模态的微调。这种策略能够逐步提升模型的生成能力，确保在大规模数据集上的高效训练，从而让模型能够生成更复杂、更逼真的视频。
大规模高质量数据集： 为了让Goku能够学习到更丰富的知识，研究人员构建了约3600万视频和1.6亿图像的大规模数据集，并采用多种数据过滤和增强技术来提高数据质量。这个数据集为模型训练提供了丰富的素材，让Goku能够生成各种各样的视频。
高效的训练基础设施： 为了提高训练效率和稳定性，Goku的训练基础设施包括并行策略、细粒度激活检查点技术、容错机制以及ByteCheckpoint技术。这些技术能够显著提升训练效率和稳定性，让Goku能够在短时间内完成训练。

如果你对Goku感兴趣，可以访问以下链接了解更多信息：

项目官网： https://saiyan-world.github.io/goku/
Github仓库： https://github.com/Saiyan-World/goku
HuggingFace模型库： https://huggingface.co/datasets/saiyan-world/Goku
arXiv技术论文： https://arxiv.org/pdf/2502.04896

Goku的应用场景非常广泛，它可以应用于以下领域：

广告视频制作： Goku+能够根据文本描述生成高质量的广告视频，支持从文本直接生成视频、从产品图片生成人物互动视频，以及生成产品展示视频。这为广告主提供了更多的创作可能性，让他们能够以更低的成本制作出更具吸引力的广告。
虚拟数字人视频生成： Goku+可以将文本转换为超现实的人类视频，生成超过20秒的视频，具有稳定的手部动作和极具表现力的面部及身体动作。这为虚拟主播、虚拟客服等场景提供了更多的可能性，让他们能够以更逼真的形象与用户互动。
内容创作： Goku能够生成包括动画、自然风光、动物行为等多种场景的视频。比如，它可以生成一位时尚女性在东京街头漫步的视频，或者数只巨型猛犸象在雪地上行走的场景。这为艺术创作者提供了丰富的灵感和创作素材，让他们能够创作出更具创意、更具想象力的作品。
教育与培训： Goku可以用于制作教育视频和培训课程，通过生成生动的视频内容，提高教育培训的效果和趣味性。比如，它可以生成一个关于恐龙时代的视频，让学生们更直观地了解恐龙的生活习性。
娱乐产业： 在电影、电视剧、动画等娱乐产业中，Goku可用于内容制作和特效生成。它可以生成高质量的视频内容，为创作者提供更多可能性，让他们能够创作出更精彩、更震撼的作品。

总而言之，Goku的出现，无疑为视频生成领域带来了一场革命。它不仅降低了视频制作的成本，提高了创作效率，还为创作者提供了更多的可能性。相信在不久的将来，Goku将会在各个领域大放异彩，为我们的生活带来更多的惊喜。