Gemini 2.0 实测：推理翻车，多模态惊艳，编程略逊 Claude？

谷歌的 Gemini 2.0 Flash 带着万众期待而来，目标直指 OpenAI 和 Claude。这场 AI 大战，硝烟味十足。但实测结果却有些出人意料，Gemini 2.0 Flash 在一些基础能力上遭遇了滑铁卢，但在多模态方面的表现却令人眼前一亮，编程能力上则略逊于 Claude。

Gemini 2.0 Flash 的纸面实力

谷歌官方给出的数据显示，Gemini 2.0 Flash 在图像、视频处理、编码和数学等多个方面都超越了 Gemini 1.5 Pro 002。虽然没有直接与主流模型进行对比，但 Gemini-Exp-1121（即 Gemini Flash 2.0）在竞技场榜单上的表现仅次于 GPT-4o，超越了 o1-preview 和 o1-mini，实力不容小觑。

然而，纸面数据终归是纸面数据，实际表现才是检验真理的唯一标准。

经典测试翻车？Gemini 2.0 Flash 的滑铁卢

首先，我们用经典的“9.11 和 9.8 谁大”以及“Strawberry”问题来测试 Gemini 2.0 Flash 的智商。

结果显示，Gemini 2.0 Flash 成功通过了比大小的考验，但在数数问题上却不幸翻车。这让人不禁对其基础能力产生一丝怀疑。

推理能力遭遇挑战

接下来，我们进行了一项推理测试：

“房子里有五个人，A、B、C、D 和 E。A 正在和 B 看电视，D 在睡觉，E 在打乒乓球，请问 C 在做什么？”

正确答案是：C 在打乒乓球。因为乒乓球是一项双人运动，A、B、D 都有事情在做，所以 C 只能是和 E 一起打乒乓球。

然而，Gemini 2.0 Flash 却给出了这样的答案：“并没有明确说明 C 在干什么，因此，我们无法知道 C 的具体活动……”

这着实让人大跌眼镜。为了验证问题本身是否存在问题，我们将同样的问题抛给了完整版 o1 和 Claude 3.5 Sonnet。

Claude 3.5 Sonnet 同样未能给出正确答案，而完整版 o1 则准确地推理出 C 正在和 E 打乒乓球。这说明 Gemini 2.0 Flash 在逻辑推理方面还有待加强。

编程能力比拼：略逊 Claude 一筹

为了测试 Gemini 2.0 Flash 的编程能力，我们让它开发一个经典的扫雷游戏。

经过几次调试，Gemini 2.0 Flash 终于生成了一个较为完整的扫雷游戏。代码输出速度确实很快，给人一种 Flash 的感觉。

但众所周知，Claude 在 AI 领域的编程能力一直处于领先地位。我们也让 Claude 生成一个扫雷游戏。

令人惊叹的是，Claude 没有经过任何调整，一次性就生成了一个完整版的扫雷游戏。这编程能力，真是让人叹为观止！由此可见，Gemini 2.0 Flash 在编程方面与 Claude 相比，仍存在一定的差距。

多模态功能：Gemini 2.0 Flash 的王牌

如果说在基础能力和编程方面，Gemini 2.0 Flash 的表现差强人意，那么在多模态功能方面，它绝对称得上是惊艳。

首先，给大家看一段视频（来源：海辛）。

以下视频来源于夕小瑶科技说，时长 01:40

这段视频展示了 Gemini 2.0 Flash 强大的实时视频交互能力。它不仅反应速度快，几乎没有延迟，而且语气和口音都十分自然，几乎没有 AI 的痕迹，完全可以与 ChatGPT 的高级语音功能相媲美。

不仅如此，Gemini 2.0 Flash 的识别能力和分析能力也非常出色。

@heyronir 在 X 上分享了他如何让 Gemini 2.0 Flash 教他调酒的视频。

以下视频来源于，时长 00:56

以及教弹钢琴的视频。

以下视频来源于，时长 00:52

它甚至还能共享屏幕，实时指导编程。

以下视频来源于 AIGCN ，时长 05:38

更令人 впечатляющим 是，Gemini 2.0 甚至还能在实时音频、视频流输入的同时，去组合调用搜索引擎、代码解释器等工具。这简直就是 AI 的未来！

当然，Gemini 2.0 Flash 也存在一些不足之处，例如无法打断它的输出，只能听它说完所有的话才能进行下一轮会话。但这瑕不掩瑜，Gemini 2.0 Flash 的多模态功能绝对是其最大的亮点。

Gemini 2.0 Ultra：更值得期待的未来

总而言之，Gemini 2.0 Flash 的整体表现并没有网传的那么完美，但其多模态功能却着实令人惊艳。更重要的是，此次谷歌发布的仅仅是 Flash 版，是 Gemini 2.0 系列中最小的版本。难以想象，Gemini 2.0 Ultra 又会强大到何种地步。让我们拭目以待！

这场 AI 大战，才刚刚开始。Gemini 2.0 的入局，无疑将加速 AI 技术的发展，并为我们带来更多惊喜。