Mini-Gemini:探索视觉语言模型的无限可能
在人工智能领域,大型语言模型(LLMs)的快速发展已经深刻地改变了我们与机器交互的方式。特别是在视觉语言模型(VLMs)领域,多模态输入能力正逐渐成为核心组成部分。为了弥合视觉和语言之间的鸿沟,研究人员不断探索将视觉信息融入LLMs的方法,从图像到视频,各种尝试层出不穷。然而,尽管学术界取得了显著进展,现有的VLMs与GPT-4、Gemini等成熟模型之间仍然存在性能差距,这主要是因为后者拥有海量数据和资源的强大支持。为了应对这一挑战,Mini-Gemini应运而生,它通过高分辨率视觉tokens、高质量数据以及VLM引导的生成技术,旨在实现多模态任务和生成任务的融合,即所谓的“任意到任意”输入输出模式。更令人惊喜的是,Mini-Gemini选择以Gemma的2B模型作为LLM语言模型的基础,使其在模型规模上更具优势。
Mini-Gemini的核心创新
Mini-Gemini的核心在于其简单而有效的框架,该框架旨在增强多模态视觉语言模型(VLMs)的性能。虽然VLMs在基本的视觉对话和推理方面取得了进步,但与更先进的模型相比,仍然存在差距。Mini-Gemini致力于通过以下三个关键方面来缩小这一差距:
- 高分辨率视觉特征提取:利用额外的视觉编码器进行高分辨率特征提炼,从而增强视觉token,而无需增加视觉token的数量。
- 高质量数据合并:构建高质量数据集,促进对图像的精确理解和基于推理的生成,从而扩展VLMs的任务范围。
- 生成任务实现:通过指令实现生成任务,赋予现有框架图像理解、推理和生成的能力。
总而言之,Mini-Gemini旨在进一步挖掘VLMs的潜力,使其能够同时处理图像理解、推理和生成任务。该模型支持从2B到34B的一系列密集和MoE大型语言模型(LLMs),并在多个零样本基准测试中取得了领先的表现,甚至超越了一些已开发的未公开模型。
技术架构详解
Mini-Gemini框架的核心概念在于其双视觉编码器设计。该设计分别提供低分辨率的视觉嵌入和高分辨率的候选区域,从而实现更精细的视觉信息处理。此外,该模型还提出了一种区域信息挖掘方法,用于在高分辨率区域与低分辨率视觉查询之间进行像素级挖掘,从而提取更丰富的视觉特征。最后,Mini-Gemini利用大规模语言模型(MLM)同时实现文本与图像的理解和生成。
1. 双视觉编码器(Dual Vision Encoders)
Mini-Gemini框架能够处理文本和图像输入,可以选择单独处理它们,也可以结合处理。为了便于理解,我们以同时处理这两种模态为例。整个处理流程始于一个高分辨率图像 XH ∈ RH×W×3,通过双线性插值生成对应的低分辨率图像 XL ∈ RH′×W′×3,确保 H′ ≤ H。然后,我们将它们处理并编码成两个并行的图像流的多网格视觉嵌入。特别地,对于低分辨率(LR)流程,我们保持传统的流水线,并采用一个CLIP预训练的ViT来编码视觉嵌入 XL’ ∈ RN×C,其中 N 表示视觉块的数量。通过这种方式,N 个视觉块之间的长距离关系可以在后续的LLMs中得到很好的保留和交互。至于高分辨率(HR)流程,我们采用基于CNN的编码器进行自适应和高效的HR图像处理。例如,为了与LR视觉嵌入对齐,我们使用LAION预训练的ConvNeXt作为HR视觉编码器。因此,通过对特征进行上采样和连接不同卷积阶段的特征到1/4的输入尺度,我们可以获得HR特征图 XH’ ∈ RN’×N’×C。这里,N’ = H/4 × W/4 = N × M^2 表示HR特征的数量,其中 M 反映了每个HR段内的逐像素特征计数。
简单来说,双视觉编码器的设计旨在充分利用高分辨率图像的细节信息,同时保留低分辨率图像的全局信息,从而实现更全面的视觉理解。
2. Patch信息挖掘(Patch Info Mining)
基于上述生成的低分辨率嵌入 XL’ 和高分辨率特征 XH’,我们提出了patch信息挖掘来扩展VLMS潜力,增强视觉token。特别地,为了保持最终视觉输出tokens数量不变以实现高效嵌入LLM,我们将低分辨率视觉嵌入 XL’ 作为查询 Q ∈ RN×C,旨在从高分辨率HR候选中检索相关的视觉线索。同时,将HR特征图 XH’ 分别作为键 K ∈ RN×M2×C 和值 V ∈ RN×M2×C。这里,Q 中的低分辨率块与K 和V 中的相应高分辨率子区域相关联,包含 M 平方个逐像素特征。因此,补丁信息挖掘过程可以被形式化为:
TV = MLP(Q + Softmax(ϕ(Q) × ϕ(K)T ) × ϕ(V)),
其中 ϕ 和 MLP 分别表示投影层和多层感知器。这个公式封装了合成和精炼视觉特征的过程,导致生成增强的视觉token TV 用于后续的LLMs处理。它确保每个查询的挖掘被限制在其相应的 XH’ 中具有 M2 特征的子区域内,从而保持效率。这种设计允许提取HR细节,而不扩展 TV 的视觉tokens数量,保持了细节丰富和计算灵活性的平衡。
此外,设计的patch信息挖掘还支持视觉tokens的扩展。我们可以将视觉tokens扩展到 5N 以捕获更多细节。这种实现可通过将原始图像与其对应上采样2×一起合并,导致批输入得到批处理输入 XL ∈ R5×H’×W’×3。并且我们可以使用LR视觉编码器得到编码的视觉嵌入 XL’ ∈ R5×N×C。由于基于CNN的HR视觉编码器的灵活设计,它可以在patch信息挖掘过程中熟练处理扩增的视觉tokens数量。在上述过程中唯一的区别是 XH’ 中的子区域应根据扩展的视觉嵌入 XL’ 进行更改。如果需要,我们也可以对HR输入进行上采样以更好地支持更高的分辨率。
3. 文本和图像生成(Text and Image Generation)
通过挖掘的视觉tokens TV 和输入文本tokens TT,我们将它们连接起来作为LLMs的输入,进行自回归生成。与传统的VLMs不同,Mini-Gemini支持文本-图像生成作为输入和输出,即任意到任意推理。尽管存在图像理解,但我们将Mini-Gemini生成图像的能力锚定在其出色的图像-文本理解和推理能力上。与最近的研究不同,后者解决了LLMs和生成模型之间的文本嵌入域之间的差距,我们选择在语言提示的领域优化这个差距。准确地说,Mini-Gemini将用户指令转化为能够在潜在扩散模型中产生上下文相关图像的高质量提示。这种方法体现在随后的高质量图像生成框架中,如DALLE 3和SORA,它们利用VLMs的生成和理解能力获得用于生成任务的更高质量的文本条件。
3.1 文本-图像指令(Text-image Instructions)
为了实现更好的跨模态对齐和指令微调,我们从公开来源收集了高质量的数据集。特别是,对于跨模态对齐,我们利用了LLaVA过滤的CC3M数据集中的558K图像-标题对和ALLaVA数据集中的695K样本的GPT-4V回复的标题。总共约有120万个图像标题用于投影器预训练。至于指令微调,我们从LLaVA数据集中采样了643K单轮和多轮对话(不包括21K的TextCaps数据),从ShareGPT4V中采样了10万个QA对,从LAION-GPT-4V中采样了10K标题,从ALLaVA数据集中采样了70万个GPT-4V回应的指令对,以及从LIMA和OpenAssistant2中采样了6K个仅文本的多轮对话。为了增强OCR相关的能力,我们进一步收集了包括10K DocVQA,4K ChartQA,10K DVQA和4K AI2D数据在内的28K QA对。总的来说,约有150万个与图像理解相关的指令对话。此外,我们还收集了13K对图像相关的生成数据,后续将详细介绍。
3.2 生成相关的指令(Generation-related Instructions)
为了支持图像生成,我们使用GPT-4 Turbo构建了一个包含13K个指令的数据集。训练数据包括两个任务:(a)简单指令重新标题:我们采用了来自LAION-GPT-4V 的8K描述性图像标题,并让GPT-4逆向推断出相应用户的短输入和目标标题在稳定扩散(SD)域中的。(b)上下文提示生成:基于LIMA和OpenAssistant2中的一些高质量现实对话上下文,我们生成能够产生适合对话上下文的提示,总共提供5K个指令。对于这两种数据,在对GPT-4的每次查询中,我们随机从GigaSheet 中采样5个高质量的SD文本到图像提示作为上下文示例,以获取生成的目标提示。我们将我们的数据格式化为使用 作为触发器来启动生成过程,并将目标标题包含在…中。在文本生成后,Mini-Gemini提取目标标题并利用SDXL生成相应的图像。
实验结果与性能评估
Mini-Gemini在多个基准测试中进行了广泛的实验,以评估其性能。实验结果表明,该模型在各种设置中都取得了领先的性能,甚至在复杂的MMB和MMU数据集中超过了成熟的Gemini Pro、Qwen-VL-Plus和GPT 4V。这些结果突显了Mini-Gemini在VLM领域设立新的基准的潜力,并突出了其在处理复杂的多模态任务中的先进能力。值得注意的是,Mini-Gemini之所以能够以较小的模型规模实现如此出色的性能,得益于其采用了不同的LLM方法,其中最小的一个为Gemma-2B的大语言模型。
总结与展望
Mini-Gemini的出现,为多模态VLMs领域注入了新的活力。它通过战略性的框架设计、丰富的数据质量和扩展的功能范围,充分发挥了VLMs的潜在能力。补丁信息挖掘技术实现了对详细视觉线索的高效提取,高质量数据集确保了准确的视觉-语言对齐,并增强了强大的指令跟随能力。此外,Mini-Gemini还支持基于推理的生成,为当前的VLMs赋予了任意到任意的工作流程。我们有理由相信,Mini-Gemini将成为图像理解和VLM引导生成领域的一个强大基准。
当然,Mini-Gemini仍然存在改进的空间。例如,在视觉理解方面,计数能力和复杂的视觉推理能力还有待提高。这可能与缺乏相应的训练数据有关,特别是在预训练阶段。同时,对于基于推理的生成,我们还需要探索更先进的方法来进行视觉理解、推理和生成。未来的研究方向包括:
- 探索更有效的视觉特征提取方法:例如,可以尝试使用Transformer架构来替代CNN,以实现更强大的特征表示能力。
- 构建更大规模、更高质量的多模态数据集:这将有助于提高模型的泛化能力和鲁棒性。
- 研究更先进的生成模型:例如,可以尝试将Mini-Gemini与扩散模型进行更紧密的集成,以实现更高质量的图像生成。
我们期待Mini-Gemini在未来能够取得更大的突破,为人工智能领域的发展做出更大的贡献。