在人工智能领域,图像生成技术正以惊人的速度发展,预计到本十年末,它将成为一个价值数十亿美元的产业。只需短短几秒,我们就能创造出过去难以想象的图像,例如朋友在火星上插旗或勇敢地冲向黑洞的场景。然而,实现这些看似简单的任务背后,是庞大的数据集和长时间的训练过程。传统的图像生成模型需要在数百万张图像上进行训练,耗费大量的计算资源和时间。
麻省理工学院(MIT)的研究人员近期在图像生成领域取得了一项突破性进展。他们提出了一种全新的图像处理方法,无需使用传统的生成器,就能实现图像的创建、转换和修复。这项研究成果发表在国际机器学习大会(ICML 2025)上,为AI图像生成领域带来了新的可能性。
1D Tokenizer:图像处理的新视角
这项研究的核心在于对一种名为“一维 tokenizer”的神经网络的创新应用。最初,Lukas Lao Beyer 在 MIT 的深度生成模型研究生研讨会上接触到了 tokenizer 的概念。他发现,通过这种技术,可以将一张 256x256 像素的图像转换为仅包含 32 个数字(称为 token)的序列。这种高度的压缩引起了他的极大兴趣:这些 token 究竟代表什么?它们是如何实现如此高效的压缩的?
与传统的 tokenizer 不同,一维 tokenizer 能够更有效地编码图像信息。传统的 tokenizer 通常将图像分割成 16x16 的 token 数组,每个 token 对应于原始图像的特定部分。而一维 tokenizer 使用更少的 token,并且每个 token 能够捕获关于整个图像的信息,而不仅仅是某个局部区域。更重要的是,每个 token 都是一个 12 位的二进制数,这意味着总共有 2^12(约 4,000)种可能性。Kaiming He 教授将此比作计算机使用的一种由 4,000 个“词汇”组成的抽象语言。虽然这种语言不同于人类语言,但研究人员可以尝试理解其含义。
Token 操作:揭示隐藏的图像属性
为了理解 token 的作用,Lao Beyer 采用了一种直接的方法:他逐个移除 token,替换为随机值,并观察输出图像的变化。通过这种方式,他发现不同的 token 控制着不同的图像属性。例如,某些 token 影响图像的质量,可以将低分辨率图像转换为高分辨率图像,反之亦然。其他 token 则控制背景的模糊程度或图像的亮度。甚至还有一个 token 与图像的“姿态”相关,例如,可以改变图像中鸟的头部方向。
这一发现是前所未有的。此前,没有人观察到通过操纵 token 可以实现视觉上可识别的变化。这为图像编辑提供了一种新的思路。MIT 的研究团队进一步开发了自动化 token 修改流程,无需手动逐个调整 token。
无生成器图像生成:新的可能性
该研究团队取得的另一项重要成果是实现了无需生成器的图像生成。传统的图像生成系统通常需要一个 tokenizer 来压缩和编码图像数据,以及一个生成器来组合和排列这些压缩表示,从而创建新的图像。而 MIT 的研究人员找到了一种无需生成器即可创建图像的方法。
他们的方法利用了一维 tokenizer 和 detokenizer(也称为解码器),detokenizer 可以从 token 序列中重建图像。此外,他们还借助了一个现成的神经网络 CLIP。CLIP 本身无法生成图像,但可以评估给定图像与特定文本提示的匹配程度。通过 CLIP 的指导,研究人员能够将红熊猫的图像转换为老虎的图像。更令人惊叹的是,他们可以完全从零开始创建老虎或其他任何图像,即从所有 token 都被赋予随机值开始,然后迭代地调整这些 token,直到重建的图像与所需的文本提示匹配。
该团队还展示了,在相同的设置下(使用 tokenizer 和 detokenizer,但不使用生成器),他们可以进行“图像修复”,即填充图像中被遮盖的部分。由于生成器通常需要大量的训练,因此避免使用生成器可以显著降低计算成本。
关键在于组合:创新的力量
He 教授指出,这项研究的独特之处在于,他们并没有发明任何新的组件。他们没有发明一维 tokenizer,也没有发明 CLIP 模型。但他们发现,当将这些已有的组件组合在一起时,会产生新的功能。
纽约大学的计算机科学家 Saining Xie 评论说,这项工作重新定义了 tokenizer 的作用。它表明,通常仅用于压缩图像的图像 tokenizer 实际上可以做更多的事情。令人惊讶的是,一个简单(但高度压缩)的一维 tokenizer 可以处理诸如图像修复或文本引导编辑之类的任务,而无需训练完整的生成模型。
普林斯顿大学的 Zhuang Liu 也对此表示赞同,他说 MIT 团队的工作表明,我们可以以比以前想象的更容易的方式生成和操作图像。基本上,它表明图像生成可以是非常有效的图像压缩器的副产品,从而可能将图像生成的成本降低数倍。
应用前景:超越计算机视觉
Karaman 教授认为,这项技术在计算机视觉领域之外还有许多应用。例如,我们可以考虑以相同的方式对机器人或自动驾驶汽车的动作进行 token 化,这可能会迅速扩大这项工作的影响。
Lao Beyer 也持有类似的观点,他指出,一维 tokenizer 提供的极高压缩率允许进行“一些了不起的事情”,这些事情可以应用于其他领域。例如,在自动驾驶汽车领域(这是他的研究兴趣之一),token 可以代表车辆可能采取的不同路线,而不是图像。
Xie 也对这些创新想法可能产生的应用前景感到兴奋。他说,这可能会开启一些非常酷的用例。
总结
麻省理工学院的这项研究成果为图像生成领域带来了新的思路。通过对一维 tokenizer 的创新应用,研究人员实现了无需生成器的图像编辑和生成,降低了计算成本,并为未来的应用开辟了新的可能性。这项研究不仅重新定义了 tokenizer 的作用,也为人工智能领域的发展带来了新的启示。
未来的研究可以进一步探索如何优化 token 的表示方式,以及如何将这项技术应用于更广泛的领域,例如视频生成、自然语言处理和机器人控制等。随着人工智能技术的不断发展,我们有理由相信,这项研究将为我们带来更多惊喜。
()