人工智能(AI)在图像生成领域的应用正以前所未有的速度发展。想象一下,只需几秒钟,你就能创造出一幅朋友在火星上插旗或勇敢冲向黑洞的奇幻画面。然而,实现这一目标通常需要庞大的数据集和长时间的训练,这不仅耗时而且消耗大量计算资源。如今,麻省理工学院(MIT)的研究人员带来了一项颠覆性技术,他们发现了一种无需生成器即可通过AI方法生成图像的新途径,为图像处理领域带来了新的可能性。
MIT的创新研究
这项引人注目的研究成果发表在国际机器学习大会(ICML 2025)上,论文题为“Highly Compressed Tokenizer Can Generate Without Training”。该研究由MIT信息与决策系统实验室(LIDS)的研究生Lukas Lao Beyer、MIT计算机科学与人工智能实验室(CSAIL)的博士后研究员田洪力、Facebook AI Research的陈新磊、MIT航空航天学教授兼LIDS主任Sertac Karaman以及MIT电子工程与计算机科学副教授何凯明共同完成。
这项研究的灵感来源于Lao Beyer去年秋季参加的一个关于深度生成模型的研讨会项目。在与授课老师何凯明的交流中,他们逐渐意识到这项研究具有超越普通作业的潜力,并吸引了更多合作者加入。
一维Tokenizer的突破
研究的起点是2024年6月由慕尼黑工业大学和字节跳动公司的研究人员发表的一篇论文,该论文介绍了一种名为一维Tokenizer的新型视觉信息表示方法。通过这种神经网络,一个256x256像素的图像可以被转换成仅包含32个数字(称为tokens)的序列。“我想要了解这种高水平的压缩是如何实现的,以及这些tokens本身究竟代表什么,”Lao Beyer解释道。
传统Tokenizer通常将图像分解成16x16的tokens数组,每个token以高度浓缩的形式封装了原始图像特定部分的信息。而新的一维Tokenizer能够更有效地编码图像,使用更少的tokens,并且这些tokens能够捕获整个图像的信息,而不仅仅是单个象限。此外,每个token都是一个由1和0组成的12位数字,总共有2^12(约4000)种可能性。“这就像一个由4000个单词组成的词汇表,构成了计算机所说的抽象、隐藏的语言,”何凯明解释说。“虽然它不像人类语言,但我们仍然可以尝试 выяснить что это означает。”
Lao Beyer最初的目标正是探索这一点,这也为ICML 2025论文奠定了基础。他采用了一种非常直接的方法。Lao Beyer说,如果你想知道一个特定的token的作用,“你可以直接把它拿出来,替换成一些随机值,然后看看输出中是否有可识别的变化。”他发现,替换一个token会改变图像质量,将低分辨率图像转换为高分辨率图像,反之亦然。另一个token影响背景的模糊度,而还有一个token影响亮度。他还发现了一个与“姿势”相关的token,例如,在知更鸟的图像中,鸟的头部可能会从右向左移动。
“这是一个前所未有的结果,因为之前没有人观察到通过操纵tokens可以产生视觉上可识别的变化,”Lao Beyer说。这一发现为编辑图像提供了一种新的可能性。事实上,MIT团队已经展示了如何简化和自动化这个过程,从而无需手动逐个修改tokens。
无需生成器的图像生成
更重要的是,他和他的同事们取得了一项更重要的成果,即图像生成。通常,一个能够生成图像的系统需要一个Tokenizer(用于压缩和编码视觉数据)以及一个生成器(用于组合和排列这些紧凑的表示以创建新的图像)。MIT的研究人员找到了一种完全不使用生成器来创建图像的方法。他们的新方法利用一维Tokenizer和一个所谓的Detokenizer(也称为解码器),它可以从一串tokens中重建图像。然而,在由一个名为CLIP的现成神经网络(它本身无法生成图像,但可以衡量给定图像与特定文本提示的匹配程度)的指导下,该团队能够将一只小熊猫的图像转换成一只老虎。此外,他们可以完全从零开始创建老虎或其他任何所需形式的图像——从所有tokens最初都被分配随机值(然后迭代调整,使重建的图像越来越符合所需的文本提示)的情况开始。
该团队还证明,通过相同的设置——依赖于Tokenizer和Detokenizer,但没有生成器——他们也可以进行“修复”,这意味着填充图像中以某种方式被抹去的部分。避免使用生成器来执行某些任务可以显著降低计算成本,因为如前所述,生成器通常需要大量的训练。
何凯明解释说,这项团队的贡献可能看起来很奇怪,“因为我们没有发明任何新的东西。我们没有发明一维Tokenizer,也没有发明CLIP模型。但我们确实发现,当你把所有这些部件组合在一起时,就会产生新的能力。”
纽约大学的计算机科学家Saining Xie评论说:“这项工作重新定义了Tokenizer的角色。它表明,图像Tokenizer——通常仅用于压缩图像的工具——实际上可以做更多的事情。事实上,一个简单(但高度压缩)的一维Tokenizer可以处理诸如修复或文本引导编辑之类的任务,而无需训练一个成熟的生成模型,这非常令人惊讶。”
普林斯顿大学的Zhuang Liu也表示赞同,他说MIT团队的工作“表明,我们可以以一种比我们以前认为的容易得多的方式生成和操作图像。基本上,它表明图像生成可以是一个非常有效的图像压缩器的副产品,从而可能将生成图像的成本降低几倍。”
Karaman表示,除了计算机视觉领域,这项技术可能还有许多其他应用。“例如,我们可以考虑以同样的方式Tokenize机器人或自动驾驶汽车的动作,这可能会迅速扩大这项工作的影响。”
Lao Beyer的想法也与此类似,他指出一维Tokenizer所提供的极端压缩量允许你做“一些令人惊奇的事情”,这些事情可以应用于其他领域。例如,在他感兴趣的自动驾驶汽车领域,tokens可以代表车辆可能采取的不同路线,而不是图像。
Xie也对这些创新想法可能带来的应用感到好奇。“这可能会开启一些非常酷的用例,”他说。
行业影响与未来展望
MIT的这项研究不仅在技术上有所突破,更重要的是,它对整个图像处理行业产生了深远的影响。通过减少对生成器的依赖,研究人员降低了图像生成的计算成本,使得AI图像处理技术更加普及和易于使用。这项技术为图像编辑、内容创作、虚拟现实等领域带来了新的可能性。
图像编辑
传统的图像编辑工具通常需要专业技能和复杂的操作,而基于Tokenizer的图像编辑方法则更加直观和高效。用户可以通过简单地修改tokens来改变图像的各种属性,如分辨率、亮度、背景模糊度等。这种方法不仅降低了编辑难度,还提高了编辑效率。
内容创作
在内容创作领域,这项技术可以用于生成各种视觉内容,如广告素材、社交媒体帖子、产品展示图等。由于无需生成器,内容创作者可以更快地生成高质量的图像,从而提高工作效率并降低成本。
虚拟现实
虚拟现实(VR)和增强现实(AR)技术需要大量的3D模型和图像。通过Tokenizer技术,可以更高效地压缩和处理这些数据,从而提高VR/AR应用的性能和用户体验。此外,该技术还可以用于生成虚拟场景和角色,丰富VR/AR内容。
机器人与自动驾驶
正如Karaman和Lao Beyer所指出的,这项技术还可以应用于机器人和自动驾驶领域。通过Tokenize机器人和自动驾驶汽车的动作,可以实现更高效的路径规划和决策,从而提高其性能和安全性。
结论
MIT的这项研究为AI图像处理技术开辟了新的道路。通过重新定义Tokenizer的角色,研究人员展示了图像压缩器在图像生成和编辑方面的巨大潜力。这项技术不仅降低了计算成本,还提高了效率和灵活性,为各行各业带来了新的可能性。随着技术的不断发展,我们有理由相信,AI图像处理将在未来发挥更加重要的作用。
未来的研究方向可能包括:
- 优化Tokenizer结构:进一步提高压缩效率和图像质量。
- 探索更多应用场景:将Tokenizer技术应用于更多领域,如医疗影像、遥感图像等。
- 开发更智能的编辑工具:基于Tokenizer技术开发更智能、更易用的图像编辑工具。
我们期待着AI图像处理技术在未来的发展,并相信它将为我们的生活带来更多的便利和创新。