谷歌最新推出的 Gemini Pro 引起了科技界的广泛关注,紧随其后,性能更强大的 Gemini Ultra 也即将面世。那么,Gemini 系列真的能在性能上超越 GPT-4 吗?
目前,科技博客作者们正热烈讨论 Gemini Pro 和 Gemini Ultra 与其他先进技术的比较。Claude 2 在某些方面超越了 GPT-4,而谷歌的 Bard 也表现出色。现在,谷歌的 Gemini 系列似乎正在成为新的领跑者。一张表格在科技圈内流传,声称基于一项广受尊敬的基准测试,Gemini 已经超越了 GPT-4。数据是客观的,但基准测试并非完美无瑕。如果一个语言模型是用它被测试时使用的相同数据来训练的,那就类似于提前看到了考试题目。
因此,在接受这些基准测试结果时,我们应持谨慎态度。接下来,我们将详细比较谷歌的 Gemini Pro 和 GPT-4。Gemini Pro 是免费提供的,可以直接与谷歌的 Bard 进行连接。
推理能力对比
大型语言模型的类似人类思维能力可以通过考察其解决逻辑问题的能力来评估。例如,以下是一个逻辑问题:
张三从A班转到B班会导致两个班的平均智商都提高吗?解释为什么能或者为什么不能。
GPT-4 提供了一个精准而友好的答案,直击要点,而 Gemini Pro 的尝试并未达到同样的标准。
在进行常识知识测试时,我们遇到了一个非常说明性的例子。问题十分直白:“假设我有一个12升的水壶和一个6升的水壶,我想要量出6升水,应该如何操作?”
GPT-4 给出的回答可能稍显冗长,但它确实解决了这个问题。然而,相比之下,Gemini Pro 的处理方式则显得更为复杂。
这里是一个典型的常识性问题:“我有 5 件衣服在阳光下晒。需要5个小时才完全干燥。如果我要晒30件衣服需要多长时间?”
Gemini Pro 对此问题的回答并不友好,给出了错误的答案。另一方面,ChatGPT-4 提供了正确答案。这一比较揭示了 Gemini Pro 和 GPT-4 在推理和常识方面的显著差距。
视觉能力对比
与 GPT-4 一样,Gemini Pro 也是一种多模态模型,具备图像识别能力。我使用了 “LMMs黎明:对GPT-4V(ision)的初步探索” 论文中的图片和问题来测试这一点。
当向 Gemini Pro 展示一个特定图像并询问其幽默方面的内容时,其回应并不十分准确。
它错误地将犀牛角识别为乌龟,忽略了图像中真正的幽默。相比之下,GPT-4 表现出了对图像内容和含义的精确理解。
我还测试了他们解读另一个图像的能力,要求他们描述其内容、汉字,并确定食物的原产地城市。
Gemini Pro 的回答是:
而在相同的测试中,GPT-4 提供了如下的回应:
这种比较显示出,尽管 Gemini Pro 在多语言处理方面可能更为强大,但 GPT-4 在图像识别和解读方面的表现略胜一筹,对于理解和解释图像内容更为准确。
Token 限制对比
在大型语言模型的应用领域中,Token的容量是一个关键因素。所谓Token容量,指的是模型在一次对话中能够处理和记忆的词汇数量。Token限制越高,模型能够进行的对话就越长久、细节越丰富。
在测试中,Gemini Pro的Token限制显著低于GPT-4。举例来说,我曾尝试让它将Sam Altman在OpenAI DevDay上的45分钟演讲转化为一篇文章。但Gemini Pro在处理到30分钟时就已达到其处理极限。
Gemini Pro 在这项任务中处理的总词数大约为5327个词。
此外,Gemini Pro 还提供了一个非常实用的功能,即用户可以从三种不同的回应中选择一种。通过这种方式,用户可以将回应的总字数增加到大约6000字。
然而,在相同的任务中,ChatGPT-4 的表现非常出色。我向它输入了两个45分钟视频的字幕,并且它轻松地完成了转换任务,处理的单词总数达到了大约17,408个。
还需注意的是,GPT-4 Turbo 能够在其上下文窗口中处理高达128,000字的大量文本。
长文本摘要的对比
在进行文本摘要的对比时,我们来看看 Gemini Pro 和 GPT-4 的表现如何。我所设定的任务是将 YouTube 字幕转换成一篇文章。Gemini Pro 采取了对字幕进行直接摘要的方式。
另一方面,虽然 ChatGPT-4 的输出内容较短,但其格式清晰且结构良好。
值得一提的是,Gemini Pro 实际上能够直接对 YouTube 视频内容进行摘要。鉴于谷歌是 YouTube 的所有者,这一功能并不令人意外。而且,其生成的摘要质量相当不错。
然而,特别是在结合了 VoxScript 插件之后,GPT-4 在摘要 YouTube 视频方面显示出了一定的优势。它生成的摘要包含有清晰的开头、结构化的中间部分以及一个结尾,使得整个内容更加连贯和易于理解。
知识更新方面的比较
在11月,OpenAI 对 ChatGPT 进行了重要更新,将其训练数据扩展到了2023年4月,并计划通过持续更新来保持数据的时效性。当我询问 Gemini Pro 关于其最后一次更新的时间时,它的回答含糊且称这是“机密信息”。
出于好奇,我测试了它们对于一个较新话题的掌握程度:如何在 ChatGPT 中创建自己的 GPT 模型。Gemini Pro 给出了不错的回答,但这让我产生了疑问:它的回答是基于自身的训练数据,还是依赖于互联网上的数据。
相比之下,GPT-4的训练数据中并不包含如何创建GPT的相关信息。
GPT-4 的网络功能使其能够对同一个问题做出更详细和准确的回答,在这一领域超越了 Gemini Pro。
数学技能对比
数学技能是大型语言模型推理能力的关键组成部分。以一个具体的不定积分问题为例,这个问题源自加州大学伯克利分校,网上的资料显示它有四个正确答案。
Gemini Pro 在尝试解决这个问题时表现有所不同。在其提供的首个选项输出中,它遗漏了其中一个正确答案。
有趣的是Gemini Pro 在其第二个输出选项中,还多出一个答案,哪位小伙伴能帮忙解释是否这个答案是否正确。
然而,在第三次尝试中,Gemini Pro 的答案完全偏离了正确答案。
相比之下,GPT-4 则展现了其能力,成功提供了正确标准答案。
这个测试清晰地展现了 GPT-4 在数学和推理能力方面相比于 Gemini Pro 的优势。
网络搜索能力对比
在复杂的网络搜索任务中,Gemini Pro 的表现让我印象深刻!我用以下特定的请求来测试它的能力:
为一家虚构的消费品公司研究可持续包装解决方案。请识别前三家可持续包装供应商,并提供一份关于他们的产品、定价和环境影响的报告。
在这项任务中,Gemini Pro 的表现非常出色。
特别值得一提的是,Gemini Pro 能够将信息高效地总结成表格格式,并且这些表格可以轻松地下载到 Google 表格中,这一功能极为便捷!
另一方面,在这一领域,GPT-4 的本地网络搜索能力显得不足。即便是在使用了 WebPilot 插件后,GPT-4 也未能达到 Gemini Pro 的表现水平,它在生成表格和访问某些数据(例如价格信息)方面存在一定的局限。
在网络搜索这一方面,Gemini Pro 凭借谷歌强大的搜索引擎背景,对 GPT-4 构成了实质性的挑战。这对微软和 OpenAI 来说是一个警示,提示他们需要在网络搜索能力方面进一步提升。
总结
Gemini Pro 标志着相比其前身 Bard 的一次重大飞跃。虽然 Bard 在特定场合(如地图阅读)有其用途,但 Gemini Pro 提供了更多功能。尽管它还未能达到 GPT-4 的水平,但在几个关键领域已明显超越了 GPT 3.5。
一个关键的问题是:Gemini Ultra 与 GPT-4 相比将会表现如何?我认为,它可能仍会稍逊于 GPT-4。
对于用户来说,像 Gemini 这样的免费工具,以及 ChatGPT 和 Claude 2 的可用性,无疑是巨大的胜利。这是 AI 领域激动人心的时刻,每一次新的进展都带来了更多的多样性和实用性。