在人工智能领域,大型语言模型(LLM)的竞争日益激烈。近日,谷歌的Gemini Pro与OpenAI的GPT-4V之间的多模态能力对比测评报告引起了广泛关注。这份由港中文等机构联合发布的128页报告,对Gemini Pro的视觉理解能力进行了全面评估,结果显示其在多模态性能上已具备与GPT-4V一较高下的实力。
此前,有测评指出Gemini Pro的综合能力与GPT-3.5相近,引发了业界对其性能的质疑。而本次测评报告的发布,无疑为Gemini Pro正名,尤其是在多模态这一核心卖点上,Gemini Pro的表现令人眼前一亮。
Gemini Pro多模态能力测评:重点解读
该测评报告主要针对Gemini Pro的视觉理解能力,涵盖了基础感知、高级认知、挑战性视觉任务和专家能力四大领域,并在37个细分任务上进行了定性比较。此外,报告还采用了专门为多模态大语言模型设计的MME基准进行定量评估,以更全面地评估Gemini Pro的性能。
定量测试:MME基准表现
MME基准包含感知和认知两大类任务。感知任务主要考察模型对目标存在性判断、物体计数、位置关系、颜色判断、OCR识别、海报识别、名人识别、场景识别、地标识别和艺术品识别等方面的能力。而认知任务则侧重于常识推理、数值计算、文本翻译和代码推理等方面。
测试结果显示,Gemini Pro和GPT-4V在MME基准上各有优势。Gemini Pro在文本翻译、颜色/地标/人物识别以及OCR等任务中表现突出,而GPT-4V在名人识别任务上的得分较低,主要是因为其拒绝回答名人相关的问题。值得注意的是,Gemini Pro和GPT-4V在位置识别任务上的表现均不佳,表明它们对空间位置信息的敏感度有待提高。此外,开源模型SPHINX在感知任务上与GPT-4V和Gemini Pro不相上下,但在认知任务上则与两者存在较大差距。
总的来说,Gemini Pro在MME基准上的总分为1933.4,略高于GPT-4V的1926.6,这表明Gemini Pro在综合性能上具备一定的优势。
定性测试:四大任务领域
1. 基础感知
基础感知能力是模型完成高阶任务的基础,它决定了模型获取和处理原始视觉输入的准确性和有效性。报告分别测试了Gemini Pro在对象级感知能力、场景级感知能力和基于知识的感知能力等方面的表现,共包含10个细分任务。
- 空间关系: 在判断物体左右位置关系的任务中,Gemini Pro和GPT-4V均表现不佳,无法准确区分左右。然而,GPT-4V可以通过上下文的少样本学习来提高准确率。
- 物体计数: 在简单的物体计数任务中,Gemini Pro表现良好,但在面对复杂场景时,准确率明显下降。例如,在数NBA篮球运动员的数量时,Gemini Pro的答案接近正确答案(42个)。
- 视觉错觉: 在识别视觉错觉的任务中,Gemini Pro表现出色,能够正确识别出亮度相同的两个梨,而GPT-4V和SPHNIX则被视觉错觉所迷惑。
- 场景理解: 在场景理解任务中,Gemini Pro和GPT-4V都能够描述场景中的关键视觉元素。然而,GPT-4V的表现更为出色,描述更加详细,且幻觉的发生率更低。
- 视频场景理解: 在视频场景理解任务中,Gemini Pro能够将不同帧的信息整合,形成对视频场景的连贯描述。而GPT-4V则只是逐帧描述图像的内容,SPHNIX则无法全面理解图像序列。
2. 高级认知
高级认知任务需要模型进行深入的推理、解决问题和决策。报告分别测试了Gemini Pro在富含文本的视觉推理能力、抽象视觉推理能力、解决科学问题能力、情感分析能力和智力游戏能力等方面的表现,共包含13个细分任务。
- 代码生成: 将结构化视觉内容转换为相应的代码是多模态大模型的一项重要技能。报告分别测试了Gemini Pro识别公式生成LaTex代码和识别网页生成HTML代码的能力。Gemini Pro和GPT-4V在公式识别上表现较好,但仍会错误识别一些小字符或符号。三个模型在识别网页生成相应HTML代码的能力方面仍有很大的改进空间。
- 抽象视觉刺激: 对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。GPT-4V在抽象性能方面表现最佳,能够详细描述对象如何由形状组成。Gemini Pro能够识别一些简单的抽象模式。
- 图像情感分析: Gemini Pro和GPT-4V都能够很好地描绘视图,并提供其中可能的情感。GPT-4V的观察是中立的,强调情绪是主观的,同时给出了更全面的分析。Gemini Pro倾向于直接输出情感偏好。
- 情感调节输出: 情感调节输出是让多模态大模型描述以预定义情感为条件的视觉上下文。Gemini Pro和GPT-4V能够正确地将相应的情感注入到生成的文本中,但它们都遇到了幻觉问题。
- 数独游戏: 如果仅以图像作为输入,Gemini Pro尝试在输出矩阵内提供答案,但无法正确识别空白位置,而GPT-4V和SPHNIX则无法进行第一步光学字符识别。此外,给定相应的文本输入,Gemini Pro和GPT-4V都可以给出正确的答案。
3. 挑战性视觉任务
评估多模态大模型在超出标准视觉问答范围的各种具有挑战性的视觉任务中的性能。这类任务需要模型具有深厚的视觉感知和理解能力,评估这类表现将有助于深入了解模型在多领域应用的可行性。报告分别测试了Gemini Pro在图像视觉任务和时序视觉任务中的性能,共包含7个细分任务。
- 指称表达式理解: Gemini Pro和GPT-4V都能够识别指称对象的大致位置,但它们很难提供精确的坐标和框大小。而SPHNIX展示了提供引用对象的准确位置和大小的能力。
- 目标跟踪: Gemini Pro和GPT-4V都能够描绘出要跟踪的目标的细节,但它们随后两帧图像中提供了错误的边界框。
- 视觉故事生成: 任务要求模型完全理解图像中的信息,并在生成的故事中对其进行逻辑组织。Gemini Pro和SPHNIX提供了连贯的故事,但却和没有十分贴近漫画剧情。GPT-4V为每个插图提供了精确的描述,却未能根据任务要求将它们编织成一个有凝聚力的故事。
4. 各种专家能力
专家能力衡量多模态大模型将其学到的知识和技能应用于不同专业领域的泛化能力。除了上述的感知和认知任务外,多模态大模型在专门和独特场景下的鲁棒性通常具有更实际的参考意义。报告共考察了7个细分任务。
- 缺陷检测: 缺陷检测需要高精度和对细节的关注。对于缺陷明显的图像,模型都可以提供正确答案,其中GPT-4V输出更详细的原因和描述。对于螺纹损坏的样例,Gemini Pro给出了过于笼统的答案,SPHNIX错误地描述了外观,而GPT-4V给出了标准答案。
- 经济分析: 报告展示了两个用于回答问题的股价走势图。Gemini Pro擅长专家级金融知识,能够给出正确答案。GPT-4V由于安全风险而没有给出明确答案。SPHNIX由于缺乏相关训练数据无法理解此类问题。
- 机器人运动规划: 机器人规划要求机器人能够确定如何在给定情况下采取行动以实现特定目标。Gemini Pro和GPT-4V都可以提供有条理且详细的步骤,并且GPT-4V似乎比Gemini Pro给出了更合理的决定,例如电池的安装顺序,但SPHNIX无法完成手机的组装,说明其泛化能力有限。
结论与展望
总的来说,Gemini Pro在多模态推理能力上已成为GPT-4V的有力竞争者。在大多数情况下,Gemini Pro的回答准确性具有竞争力,并展示了不同的回答风格和偏好。GPT-4V倾向于生成对感知任务更详细的描述,并为认知任务提供深入的分析和逐步的中间推理,而Gemini Pro更喜欢对答案提供直接而简洁的回应,这有助于用户快速找到相关信息。
当然,Gemini Pro和GPT-4V也存在一些共性问题,如空间感知能力不强、复杂OCR和抽象视觉理解不理想、推理过程可能存在不自洽结果以及对提示设计的鲁棒性不足等。在很多情况下,它们仍然面临挑战。这意味着大模型的多模态能力还有很长的路要走,尤其是在视觉表示编码(细粒度外观、空间关系感知)、多模态对齐(减轻幻觉、OCR准确性)以及模型推理能力(定量处理、逻辑一致性)等方面有待进一步提升。
尽管如此,Gemini Pro的出现无疑为多模态大模型领域注入了新的活力,预示着人工智能在视觉理解和跨模态交互方面将迎来更大的发展。