AI图像生成新突破:无需生成器的图像编辑与生成技术

1

在人工智能领域,图像生成技术正以惊人的速度发展,预计到本十年末,它将成为一个价值数十亿美元的产业。只需短短几秒,我们就能创造出过去难以想象的图像,例如朋友在火星上插旗或勇敢地冲向黑洞的场景。然而,实现这些看似简单的任务背后,是庞大的数据集和长时间的训练过程。传统的图像生成模型需要在数百万张图像上进行训练,耗费大量的计算资源和时间。

A 5x3 grid of animal photos. In the first row, a red panda is transformed into a tiger. In the second, a robin becomes a dog. Finally, a flamingo's head appears in place of a black square.

麻省理工学院(MIT)的研究人员近期在图像生成领域取得了一项突破性进展。他们提出了一种全新的图像处理方法,无需使用传统的生成器,就能实现图像的创建、转换和修复。这项研究成果发表在国际机器学习大会(ICML 2025)上,为AI图像生成领域带来了新的可能性。

1D Tokenizer:图像处理的新视角

这项研究的核心在于对一种名为“一维 tokenizer”的神经网络的创新应用。最初,Lukas Lao Beyer 在 MIT 的深度生成模型研究生研讨会上接触到了 tokenizer 的概念。他发现,通过这种技术,可以将一张 256x256 像素的图像转换为仅包含 32 个数字(称为 token)的序列。这种高度的压缩引起了他的极大兴趣:这些 token 究竟代表什么?它们是如何实现如此高效的压缩的?

与传统的 tokenizer 不同,一维 tokenizer 能够更有效地编码图像信息。传统的 tokenizer 通常将图像分割成 16x16 的 token 数组,每个 token 对应于原始图像的特定部分。而一维 tokenizer 使用更少的 token,并且每个 token 能够捕获关于整个图像的信息,而不仅仅是某个局部区域。更重要的是,每个 token 都是一个 12 位的二进制数,这意味着总共有 2^12(约 4,000)种可能性。Kaiming He 教授将此比作计算机使用的一种由 4,000 个“词汇”组成的抽象语言。虽然这种语言不同于人类语言,但研究人员可以尝试理解其含义。

Token 操作:揭示隐藏的图像属性

为了理解 token 的作用,Lao Beyer 采用了一种直接的方法:他逐个移除 token,替换为随机值,并观察输出图像的变化。通过这种方式,他发现不同的 token 控制着不同的图像属性。例如,某些 token 影响图像的质量,可以将低分辨率图像转换为高分辨率图像,反之亦然。其他 token 则控制背景的模糊程度或图像的亮度。甚至还有一个 token 与图像的“姿态”相关,例如,可以改变图像中鸟的头部方向。

这一发现是前所未有的。此前,没有人观察到通过操纵 token 可以实现视觉上可识别的变化。这为图像编辑提供了一种新的思路。MIT 的研究团队进一步开发了自动化 token 修改流程,无需手动逐个调整 token。

无生成器图像生成:新的可能性

该研究团队取得的另一项重要成果是实现了无需生成器的图像生成。传统的图像生成系统通常需要一个 tokenizer 来压缩和编码图像数据,以及一个生成器来组合和排列这些压缩表示,从而创建新的图像。而 MIT 的研究人员找到了一种无需生成器即可创建图像的方法。

他们的方法利用了一维 tokenizer 和 detokenizer(也称为解码器),detokenizer 可以从 token 序列中重建图像。此外,他们还借助了一个现成的神经网络 CLIP。CLIP 本身无法生成图像,但可以评估给定图像与特定文本提示的匹配程度。通过 CLIP 的指导,研究人员能够将红熊猫的图像转换为老虎的图像。更令人惊叹的是,他们可以完全从零开始创建老虎或其他任何图像,即从所有 token 都被赋予随机值开始,然后迭代地调整这些 token,直到重建的图像与所需的文本提示匹配。

该团队还展示了,在相同的设置下(使用 tokenizer 和 detokenizer,但不使用生成器),他们可以进行“图像修复”,即填充图像中被遮盖的部分。由于生成器通常需要大量的训练,因此避免使用生成器可以显著降低计算成本。

关键在于组合:创新的力量

He 教授指出,这项研究的独特之处在于,他们并没有发明任何新的组件。他们没有发明一维 tokenizer,也没有发明 CLIP 模型。但他们发现,当将这些已有的组件组合在一起时,会产生新的功能。

纽约大学的计算机科学家 Saining Xie 评论说,这项工作重新定义了 tokenizer 的作用。它表明,通常仅用于压缩图像的图像 tokenizer 实际上可以做更多的事情。令人惊讶的是,一个简单(但高度压缩)的一维 tokenizer 可以处理诸如图像修复或文本引导编辑之类的任务,而无需训练完整的生成模型。

普林斯顿大学的 Zhuang Liu 也对此表示赞同,他说 MIT 团队的工作表明,我们可以以比以前想象的更容易的方式生成和操作图像。基本上,它表明图像生成可以是非常有效的图像压缩器的副产品,从而可能将图像生成的成本降低数倍。

应用前景:超越计算机视觉

Karaman 教授认为,这项技术在计算机视觉领域之外还有许多应用。例如,我们可以考虑以相同的方式对机器人或自动驾驶汽车的动作进行 token 化,这可能会迅速扩大这项工作的影响。

Lao Beyer 也持有类似的观点,他指出,一维 tokenizer 提供的极高压缩率允许进行“一些了不起的事情”,这些事情可以应用于其他领域。例如,在自动驾驶汽车领域(这是他的研究兴趣之一),token 可以代表车辆可能采取的不同路线,而不是图像。

Xie 也对这些创新想法可能产生的应用前景感到兴奋。他说,这可能会开启一些非常酷的用例。

总结

麻省理工学院的这项研究成果为图像生成领域带来了新的思路。通过对一维 tokenizer 的创新应用,研究人员实现了无需生成器的图像编辑和生成,降低了计算成本,并为未来的应用开辟了新的可能性。这项研究不仅重新定义了 tokenizer 的作用,也为人工智能领域的发展带来了新的启示。

未来的研究可以进一步探索如何优化 token 的表示方式,以及如何将这项技术应用于更广泛的领域,例如视频生成、自然语言处理和机器人控制等。随着人工智能技术的不断发展,我们有理由相信,这项研究将为我们带来更多惊喜。

Kaiming He writes on a window with a marker. Clouds and the city skyline are visible.

In the lab, a dog sits next to a big white robot arm, dog food, bowl, tea pot, and mug.

A photo of the “tailsitter,” which is thin and long, made of black material and has 2 spinning blades on the top left and right. White spheres are on the ends and on top. In the middle, an exposed circuit board has many chips and colorful wires.

Three panels of small humanoid robots with large heads - two with the full image and one partially covered with black boxes ()