UniTok:字节跳动视觉分词新突破,多模态AI的强大引擎

3

在人工智能领域,视觉分词技术正逐渐成为连接图像与语言的关键桥梁。字节跳动联合香港大学、华中科技大学推出的UniTok,正是一款旨在统一视觉生成和理解任务的创新工具。它通过多码本量化技术,将视觉特征分割成多个小块,并使用独立的子码本进行量化,从而极大地扩展了离散分词的表示能力。这项技术有效解决了传统分词器在细节捕捉和语义理解之间存在的矛盾,为多模态大语言模型(MLLM)的发展开辟了新的道路。

UniTok的技术原理与优势

UniTok的核心在于其独特的多码本量化方法。传统的视觉分词器往往难以兼顾图像的细节和整体语义,而UniTok通过将视觉特征分解成多个小块,并对每个小块进行独立的量化,实现了对图像更精细的表示。例如,一个64维的视觉特征向量可以被分割成8个8维的小块,每个小块都基于一个包含4096个码字的子码本进行量化。这种方式使得UniTok的理论词汇量呈指数级增长,从而能够更准确地捕捉图像中的细微差异。

除了多码本量化,UniTok还采用了注意力分解机制。传统的线性投影层在进行token分解时可能会丢失原始token中的语义信息,而UniTok使用多头注意力模块来替代线性投影层,从而更好地保留了原始token的语义信息,提升了分解后特征的表达能力。此外,UniTok还采用了因果注意力(causal attention),以确保与自回归生成任务的兼容性。

UniTok的训练目标也十分独特。它基于VQVAE的重建损失来确保图像的细节被准确重建。这种损失包括像素级重建误差、感知损失、判别器损失和向量量化损失。此外,UniTok还引入了类似CLIP的对比损失,以确保生成的视觉token与文本描述对齐,从而提升视觉理解能力。最终的总损失是重建损失和对比损失的加权和,通过这种方式,UniTok能够同时优化生成和理解任务。

UniTok的功能与应用

UniTok的主要功能包括统一视觉表示、高质量图像重建、语义对齐以及支持多模态大语言模型(MLLM)。它能够将图像编码为离散的视觉token,这些token既可以用于图像生成任务(如文生图),也可以用于视觉理解任务(如视觉问答)。UniTok在保持图像细节的同时进行高效的图像重建,并且通过结合对比学习和重建损失,确保生成的视觉token与文本描述对齐,从而提升视觉理解能力。更重要的是,UniTok可以作为多模态大语言模型的视觉输入模块,支持模型在多模态任务中的统一处理和生成。

UniTok的应用场景十分广泛。首先,它可以作为多模态模型的视觉输入,帮助模型同时处理图文信息,提升综合性能。例如,在视觉问答任务中,UniTok可以将图像转换为视觉token,然后与文本问题一起输入到多模态大语言模型中,从而使模型能够理解图像内容并回答相关问题。其次,UniTok可以用于高质量图像生成。通过根据文本描述生成细节丰富的图像,UniTok可以应用于创意设计、广告制作等领域。例如,设计师可以使用UniTok根据客户的文字描述快速生成多种设计方案。

此外,UniTok还可以应用于视觉问答与理解。通过辅助模型理解图像内容,回答视觉相关问题,UniTok可以应用于教育、医疗影像分析等领域。例如,医生可以使用UniTok分析医学影像,辅助诊断疾病。UniTok还可以应用于多模态内容创作。通过快速生成图文内容,UniTok可以应用于新闻报道、社交媒体等,提高创作效率。例如,记者可以使用UniTok快速生成包含图像和文字的新闻报道。

最后,UniTok还可以应用于跨模态检索与推荐。通过根据文本或图像进行检索和推荐,UniTok可以提升电商平台、多媒体平台的用户体验。例如,用户可以使用UniTok在电商平台上搜索与特定图像相似的商品。

UniTok的性能表现

UniTok在多个benchmark上都取得了优异的性能。例如,在ImageNet上的零样本分类准确率达到了78.6%,重建质量(rFID)仅为0.38,显著优于现有的分词器。这些数据表明,UniTok在视觉表示和图像重建方面都具有很强的能力。此外,基于UniTok构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,进一步证明了UniTok在多模态任务中的强大潜力。

UniTok与多模态大语言模型(MLLM)的集成

UniTok与多模态大语言模型(MLLM)的集成是其一个重要的特点。为了实现视觉和语言的统一处理,UniTok将生成的视觉token基于一个MLP投影层映射到多模态大语言模型的token空间。为了简化MLLM的输入,UniTok将多个子码本生成的token合并为一个视觉token输入到MLLM中。在需要预测视觉token时,MLLM自回归地预测下一个位置对应的多个子码本token,从而实现高效的视觉生成。

这种集成方式使得UniTok能够充分利用多模态大语言模型的强大能力,从而在各种多模态任务中取得更好的性能。例如,在图像描述任务中,UniTok可以将图像转换为视觉token,然后与多模态大语言模型一起生成图像的描述。由于UniTok能够准确地捕捉图像的细节,并且多模态大语言模型具有强大的语言生成能力,因此生成的图像描述通常非常准确和生动。

结论与展望

UniTok作为一款统一视觉分词器,通过多码本量化技术和注意力分解机制,有效解决了传统分词器在细节捕捉和语义理解之间存在的矛盾。它具有统一视觉表示、高质量图像重建、语义对齐以及支持多模态大语言模型(MLLM)等多种功能,可以应用于多模态模型的视觉输入、高质量图像生成、视觉问答与理解、多模态内容创作以及跨模态检索与推荐等多种场景。UniTok在多个benchmark上都取得了优异的性能,并且与多模态大语言模型(MLLM)的集成进一步增强了其在多模态任务中的能力。未来,随着多模态人工智能技术的不断发展,UniTok有望在更多领域发挥重要作用。

当然,UniTok仍然存在一些局限性。例如,其计算复杂度相对较高,需要大量的计算资源进行训练和推理。此外,UniTok对于某些类型的图像可能表现不佳。未来,可以进一步研究如何降低UniTok的计算复杂度,并提高其在各种图像上的鲁棒性。此外,还可以探索将UniTok与其他类型的多模态模型进行集成,以进一步扩展其应用范围。

总而言之,UniTok是一款具有创新性和实用性的视觉分词器,它为多模态人工智能技术的发展做出了重要贡献。随着技术的不断进步,UniTok有望在未来发挥更大的作用,推动人工智能技术的进步。