Google 近期发布了其最新、最强大的人工智能模型 Gemini 双子座,标志着人工智能领域又向前迈进了一大步。Gemini 家族包含 Nano、Pro 和 Ultra 三个版本,分别针对不同的应用场景进行了优化。Ultra 版本专为处理高度复杂的任务而设计,Pro 版本则侧重于增强性能和可扩展性,而 Nano 版本则适用于设备端的应用程序,为用户提供更便捷的 AI 体验。
Gemini 的核心在于其多模态能力。与 OpenAI 不同,Gemini 并非简单地将 GPT-4、Dalle3 和 Whisper 等组件组合在一起,而是一个真正的多模态模型,能够同时处理和理解不同类型的信息。这种设计使得 Gemini 在处理复杂任务时具有更强的灵活性和效率。
最引人注目的是 Gemini Ultra 模型在 32 个基准测试中的卓越表现,它在其中的 30 个基准测试中均处于领先地位,超越了目前最强大的 GPT-4。尤其值得一提的是,Gemini Ultra 是第一个在经过充分研究的考试基准 MMLU 上实现人类专家性能的模型。在 MMLU(Hendrycks 等,2021a)上,Gemini Ultra 达到了 90.04% 的准确率,超越了所有现有的模型。MMLU 是一个全面的考试基准,用于测量模型在 57 个科目中的 ASET 知识。人类专家的表现是衡量基准作者在 89.8%,而 Gemini Ultra 是第一个超过这一阈值的模型,之前的最佳结果为 86.4%。实现如此高性能需要模型在法律、生物学和历史等多个领域具备专业知识,以及出色的阅读理解和推理能力。
为了更全面地评估 Gemini 的实际能力,我们进行了一系列对比测试,将其与 ChatGPT 在不同方面进行比较。毕竟,理论上的强大需要通过实践来验证。
多模态推理能力测试:
我们首先测试了 Gemini 和 ChatGPT 在物理题上的多模态推理能力。两者的表现都相当出色,都能正确理解题目并给出答案(1:1)。
跨模态推理能力测试:
接下来,我们测试了它们的跨模态推理能力,使用编码题进行测试。结果显示,Gemini 在这方面更胜一筹,ChatGPT 生成的图形存在问题(1:0.5)。
图文交错理解和推理能力测试:
我们还测试了 Gemini 和 ChatGPT 在图文交错理解和推理能力方面的表现。结果表明,ChatGPT 在理解图文交错问题时存在一些不足(1:0.5)。
多模态组合能力测试:
在多模态组合能力测试中,我们发现 Gemini 和 ChatGPT 都能够胜任,ChatGPT 甚至可以通过手机端的图片结合语音功能来实现类似的效果(1:1)。
图表数据分析能力测试:
我们还测试了它们对图表数据的分析能力。结果显示,ChatGPT 在分析表格时没有进行排序,Gemini 更胜一筹 (1:0.5)。
图像识别能力和对错别字的鲁棒性测试:
在图像识别能力以及对错别字的鲁棒性测试中,Gemini 和 ChatGPT 都表现出色,对它们来说都不是问题 (1:1)。
图文并茂生成能力测试:
我们还测试了 Gemini 和 ChatGPT 的图文并茂生成能力。结果显示,Dalle3 生成的小狗照片存在不一致的情况,但瑕不掩瑜 (1:1)。
图像理解和推理能力、IQ测试:
在图像理解和推理能力以及 IQ 测试中,Gemini 和 ChatGPT 的表现旗鼓相当 (1:1)。
图像理解和几何计算能力、IQ测试:
在图像理解和几何计算能力以及 IQ 测试中,Gemini 和 ChatGPT 的几何和计算能力不相上下 (1:1)。
复杂图像理解和按指令代码生成能力测试:
最后,我们测试了 Gemini 和 ChatGPT 在复杂图像理解和按指令代码生成能力方面的表现。结果显示,Gemini 在 17 次测试中成功了 17 次,而 ChatGPT 成功了 14.5 次。ChatGPT 也算出了正确答案,只是需要重新生成图形 (17:14.5)。
综合来看,Gemini 在某些方面表现出了比 ChatGPT 更强的能力,但并没有达到“遥遥领先”的地步。不过,考虑到 Gemini 是 Google 在人工智能领域的重要砝码,其表现仍然令人印象深刻。
然而,对于普通用户来说,ChatGPT 的功能已经足够满足日常需求。因此,对于大多数人来说,可能没有必要花费额外的精力去寻找和使用 Gemini。