谷歌的 Gemini 2.0 Flash 带着万众期待而来,目标直指 OpenAI 和 Claude。这场 AI 大战,硝烟味十足。但实测结果却有些出人意料,Gemini 2.0 Flash 在一些基础能力上遭遇了滑铁卢,但在多模态方面的表现却令人眼前一亮,编程能力上则略逊于 Claude。
Gemini 2.0 Flash 的纸面实力
谷歌官方给出的数据显示,Gemini 2.0 Flash 在图像、视频处理、编码和数学等多个方面都超越了 Gemini 1.5 Pro 002。虽然没有直接与主流模型进行对比,但 Gemini-Exp-1121(即 Gemini Flash 2.0)在竞技场榜单上的表现仅次于 GPT-4o,超越了 o1-preview 和 o1-mini,实力不容小觑。
然而,纸面数据终归是纸面数据,实际表现才是检验真理的唯一标准。
经典测试翻车?Gemini 2.0 Flash 的滑铁卢
首先,我们用经典的“9.11 和 9.8 谁大”以及“Strawberry”问题来测试 Gemini 2.0 Flash 的智商。
结果显示,Gemini 2.0 Flash 成功通过了比大小的考验,但在数数问题上却不幸翻车。这让人不禁对其基础能力产生一丝怀疑。
推理能力遭遇挑战
接下来,我们进行了一项推理测试:
“房子里有五个人,A、B、C、D 和 E。A 正在和 B 看电视,D 在睡觉,E 在打乒乓球,请问 C 在做什么?”
正确答案是:C 在打乒乓球。因为乒乓球是一项双人运动,A、B、D 都有事情在做,所以 C 只能是和 E 一起打乒乓球。
然而,Gemini 2.0 Flash 却给出了这样的答案:“并没有明确说明 C 在干什么,因此,我们无法知道 C 的具体活动……”
这着实让人大跌眼镜。为了验证问题本身是否存在问题,我们将同样的问题抛给了完整版 o1 和 Claude 3.5 Sonnet。
Claude 3.5 Sonnet 同样未能给出正确答案,而完整版 o1 则准确地推理出 C 正在和 E 打乒乓球。这说明 Gemini 2.0 Flash 在逻辑推理方面还有待加强。
编程能力比拼:略逊 Claude 一筹
为了测试 Gemini 2.0 Flash 的编程能力,我们让它开发一个经典的扫雷游戏。
经过几次调试,Gemini 2.0 Flash 终于生成了一个较为完整的扫雷游戏。代码输出速度确实很快,给人一种 Flash 的感觉。
但众所周知,Claude 在 AI 领域的编程能力一直处于领先地位。我们也让 Claude 生成一个扫雷游戏。
令人惊叹的是,Claude 没有经过任何调整,一次性就生成了一个完整版的扫雷游戏。这编程能力,真是让人叹为观止!由此可见,Gemini 2.0 Flash 在编程方面与 Claude 相比,仍存在一定的差距。
多模态功能:Gemini 2.0 Flash 的王牌
如果说在基础能力和编程方面,Gemini 2.0 Flash 的表现差强人意,那么在多模态功能方面,它绝对称得上是惊艳。
首先,给大家看一段视频(来源:海辛)。
以下视频来源于 夕小瑶科技说 ,时长 01:40
这段视频展示了 Gemini 2.0 Flash 强大的实时视频交互能力。它不仅反应速度快,几乎没有延迟,而且语气和口音都十分自然,几乎没有 AI 的痕迹,完全可以与 ChatGPT 的高级语音功能相媲美。
不仅如此,Gemini 2.0 Flash 的识别能力和分析能力也非常出色。
@heyronir 在 X 上分享了他如何让 Gemini 2.0 Flash 教他调酒的视频。
以下视频来源于 ,时长 00:56
以及教弹钢琴的视频。
以下视频来源于 ,时长 00:52
它甚至还能共享屏幕,实时指导编程。
以下视频来源于 AIGCN ,时长 05:38
更令人 впечатляющим 是,Gemini 2.0 甚至还能在实时音频、视频流输入的同时,去组合调用搜索引擎、代码解释器等工具。这简直就是 AI 的未来!
当然,Gemini 2.0 Flash 也存在一些不足之处,例如无法打断它的输出,只能听它说完所有的话才能进行下一轮会话。但这瑕不掩瑜,Gemini 2.0 Flash 的多模态功能绝对是其最大的亮点。
Gemini 2.0 Ultra:更值得期待的未来
总而言之,Gemini 2.0 Flash 的整体表现并没有网传的那么完美,但其多模态功能却着实令人惊艳。更重要的是,此次谷歌发布的仅仅是 Flash 版,是 Gemini 2.0 系列中最小的版本。难以想象,Gemini 2.0 Ultra 又会强大到何种地步。让我们拭目以待!
这场 AI 大战,才刚刚开始。Gemini 2.0 的入局,无疑将加速 AI 技术的发展,并为我们带来更多惊喜。