Gemini 大模型:谷歌挑战 GPT-4 的底气何在?多模态能力实测

5

谷歌的Gemini大模型终于揭开了神秘面纱,这次发布最引人瞩目的是其在MMLU(多任务语言理解)数据集上的卓越表现,Gemini Ultra不仅超越了GPT-4,甚至超越了人类专家。同时,一段AI实时互动视频也让人眼前一亮,AI能够对人类的涂鸦和手势动作进行评论和吐槽,其流畅性和幽默感让人感觉如同置身于科幻电影中。然而,当人们从最初的惊喜中冷静下来,仔细研读了谷歌发布的60页技术报告后,发现了一些值得关注的细节。

MMLU测试中,Gemini的成绩标注了CoT@32,这意味着它采用了思维链提示技巧,并经过32次尝试后选取了最佳结果。相比之下,作为对比的GPT-4,则是在没有提示词技巧的情况下,仅使用了5个示例。因此,有观点认为,在这个标准下,Gemini Ultra的实际表现可能不如GPT-4。

此外,原图的比例尺也受到了一些质疑。90.0%与人类基准89.8%的差距实际上非常小,但在图表中却被明显拉大,HuggingFace的技术主管Philipp Schmid根据技术报告中的数据,对这张图进行了修正,使其展示更加公平。

尽管如此,当使用相同的思维链提示技巧和32次尝试的标准时,Gemini Ultra在性能上确实超越了GPT-4。然而,谷歌的Jeff Dean对此的回应并未完全消除人们的疑虑。

对于那段令人印象深刻的视频,有人注意到开篇的免责声明,机器学习讲师Santiago Valdarrama认为,该声明可能暗示视频展示的是经过精心挑选的结果,并非实时录制,而是经过剪辑的。后来,谷歌在一篇博客文章中解释了多模态交互过程,实际上承认了使用静态图片和多段提示词拼凑才能达到视频中的效果。

不过,无论如何,谷歌Gemini的发布无疑给其他团队带来了信心,GPT-4不再是遥不可及的目标。正如AI搜索产品PerplexityAI的创始人Aravind Srinivas所总结的,Gemini证明了OpenAI之外的团队同样可以开发出超越GPT-4的模型,并且经过充分训练的密集模型可以超越GPT-4的稀疏模型架构。由此可以推断,从大型教师模型中蒸馏出小尺寸密集模型将成为未来的趋势,实现效率和能力的最佳结合。

目前,Gemini Pro版本已更新到谷歌聊天机器人Bard中。那么,Gemini Pro的水平究竟如何?它是否真的超越了ChatGPT?

需要明确的是,目前用户能够体验到的只是Gemini Pro版本,它对标的是GPT-3.5。而对标GPT-4的Gemini Ultra版本,则要等到明年才会推出。此外,Gemini目前仅支持英文,中文和其他语言的支持将在后续推出。

威斯康星大学麦迪逊分校的副教授Dimitris Papailiopoulos,将Gemini发布时展示的原题发给GPT-4进行对比,结果在14道题中,GPT-4约获得12分。其中有两题由于截图清晰度问题,给GPT-4算0.5分,还有一道数学题GPT-4做错,其他题基本与Gemini Pro打平。

代码编写能力是大模型综合能力的体现。从测试结果来看,Gemini在编程方面的表现还是不错的。有开发者测试用Pytorch实现一个简单的CNN网络,Gemini只用了2秒,且代码质量更高。当然,速度快也可能是因为Bard搭载的Gemini Pro尺寸更小。但在编写SQL语句方面,Gemini的表现则不尽如人意。

不过,对于开发者来说,Gemini在遵循指令方面的进步是巨大的。提示工程师先驱Riley Goodside此前一直无法让Bard输出纯JSON格式,现在更新后,只需直接提出要求即可。

多模态能力是Gemini的一大亮点。为了验证Gemini的多模态能力,我们从视频中抽取了8个关键帧,并分别进行提问。

对于图1-4,我们提出的问题都是“What is this person doing?”,Gemini给出的回答分别是:可能在用马克笔写字,但不知道具体是什么;在用铅笔画蛇,而且是一条眼镜蛇;在用铅笔画乌龟,而且正处于画画的初期阶段;在用黑色马克笔画鸟,脸朝左,头朝右,站在树枝上,翅膀没有展开。

对于图1和图2,由于线索不明显,出现这样的结果可以理解,但图3回答是“乌龟”就有些难以接受了。至于图4,至少可以肯定鸭子的确属于鸟类,但其他细节分析仍有欠缺。

当我们展示图5的成型作品时,Gemini终于分析出这是一只鸭子,水波纹也分析对了。但分析出的绘画工具变成了铅笔,头的朝向问题也依然没说对,喙被说成了张开的,还臆想出了一些芦苇。

接下来是图6和图7的上色过程,我们问Gemini图片中有什么异常(Is there anything abnormal?)。针对图6,Gemini给出的回答是驴唇不对马嘴,还配上了一张毫不相关的图片。针对图7的成品,Gemini直接说没毛病,该有的东西都有,背景也很真实,甚至没忘继续提根本不知道哪里来的芦苇。但下面的一句“Here is the image you sent”令人费解,Gemini读取出鸭子,但是给出的图片却是另一张。

我们使用了“深呼吸”和“一步一步解决”提示词技巧,结果这次的答案让人哭笑不得:“不正常的是,鸭子被画到了纸上,鸭子是一种活的生物,在纸上是无法存在的……”

视频的结尾是橡胶鸭子玩具,我们让Gemini分析一下鸭子的材质,结果橡胶倒是分析对了,但是蓝色的鸭子被说成了黄色。

逐帧询问完成后,我们又把8张图放在一起询问,结果也是只有鸭子说对了。

在考察GPT-4V的“吉娃娃和松饼”图中,Gemin直接摆烂,告诉我们所有的图都是“吉娃娃坐在松饼上”,甚至连图的数量都没数对……当我们换了种问法,让它告诉我们哪些是吉娃娃,哪些是松饼。这次Gemini倒是诚实的很,直接告诉我们吉娃娃和松饼实在太像了自己区分不出来。

和蓝色鸭子的问题一样,“深呼吸”在这里依然是没起到什么作用,Gemini还是连数量都搞不清楚。而勉强解说了的8个(实际上是6个,因为有两个是重复的)图,只有左下和右下两张图是对的。

或许是这样细小的差别实在是难为Gemini了,我们接下来换一些图形推理题试试。第一题的前四个符号是由1-4这四个数字与镜像后的结果拼接而成,所以下一个图应该是5与其镜像拼接,答案是C。调整之后,Gemini前面给出的分析基本正确,可惜到最后选择了错误选项D。

第二题,每个框中的第三个符号是前两个的交集,答案为A。结果Gemini研究起了这些表情,一番分析猛如虎,最后给出的答案还是错的。两道题下来,一道对了百分之七八十,另一道完全错误,看来Gemini Pro的图形推理能力还有很大提升空间。

不过如果把目光放到生活场景当中,Gemini的表现还是值得肯定的。我们用ChatGPT(DALL·E)生成了一张包含鸡肉、胡萝卜和黄瓜的图片,Gemini正确地识别出了这三种食材,然后给出了很多种可以烹饪的菜肴,而且每个都配有图片和教程链接。

沃顿商学院副教授Ethan Mollick给出一个不错的建议:没有什么理由再使用ChatGPT的免费版本了,现在已经被Bard和Claude超越,而且它们都是免费的。但你或许应该继续使用GPT-4,它仍然占主导地位,并且在必应(只有创意模式是GPT-4)中是免费的。

关于参数规模,只公布了最小的Nano版本,分为1.8B的Nano-1和3.25B的Nano-2两个型号,4-bit量化,是蒸馏出来的,可以运行在本地设备如Pixel手机上。Pro版本和Ultra版本规模保密,上下文窗口长度统一32k,注意力机制使用了Multi-Query Attention,此外没有太多细节了。

值得的关注的是微调阶段,报告中透露使用了SFT+RLHF的指令微调组合,也就是使用了ChatGPT的方法。另外也引用了Anthropic的Constitutional AI,也就是结合了Claude的对齐方法。

Gemini拖了这么久才发,之前被曝光的消息还有不少,比如谷歌创始人Sergey Brin一直亲自下场对模型进行评估并协助训练。

DeepMind创始人哈萨比斯在最新接受连线杂志采访时作出了回应:我们有世界上最好的强化学习专家……AlphaGo中的成果有望在未来改善模型的推理和规划能力……明年大家会看到更多快速进步。省流版本:还没加,明年加。

这次Gemini开发整合了原谷歌大脑和DeepMind两个团队,整个开发团队有超过800人(作为对比,OpenAI整个公司约770人)。