谷歌的 Gemini 1.0 的发布,标志着人工智能领域又向前迈进了一大步。作为谷歌最新推出的大型语言模型(LLM),Gemini 1.0 旨在超越现有技术,为用户带来更强大的功能和更广泛的应用。本文将深入探讨 Gemini 1.0 的不同版本,分析其与 ChatGPT 的对比,并展望其未来的发展前景。
Gemini 1.0:三个版本各有千秋
谷歌此次推出的 Gemini 1.0 并非单一模型,而是由三个不同版本组成,以满足不同场景的需求:
- Gemini Ultra: 作为功能最强大的版本,Gemini Ultra 拥有卓越的性能,能够处理复杂的任务。但由于其计算需求较高,速度相对较慢。
- Gemini Pro: 在性能和速度之间取得了平衡,具有良好的扩展性和通用性。目前,Gemini Pro 已经应用于 Bard 中,为用户提供智能化的对话体验。
- Gemini Nano: 专注于效率,能够在设备上运行,适用于移动设备等资源受限的场景。Pixel 8 已经采用了 Gemini Nano,实现了诸如录音转录摘要和 WhatsApp 智能回复等功能。
谷歌计划在 2024 年推出 Bard 的新版本 Bard Advanced,届时 Gemini Ultra 将正式亮相。此外,Gemini 还将扩展到搜索、广告、Chrome 和 Duet AI 等领域,为用户带来更智能化的体验。
Gemini vs ChatGPT:一场人工智能的较量
谷歌将 Gemini 视为 ChatGPT 的有力竞争者,甚至声称其能够超越 ChatGPT。然而,Gemini 是否能够真正实现这一目标,还有待市场检验。目前来看,Gemini 驱动的 Bard 在某些方面已经展现出一定的优势,但在其他方面仍有提升空间。
谷歌表示,只有 Gemini Ultra 版本才能在性能上超越 ChatGPT。根据早期报告,Gemini Ultra 在多个领域确实略胜一筹。然而,该版本尚未正式发布,目前用户更多体验的是 Gemini Pro,其与 ChatGPT 的免费版本 GPT-3.5 相比,优势并不明显。这意味着 Gemini 要想真正超越 ChatGPT,仍需不断提升自身的能力。
下表展示了 Gemini Ultra 与 GPT-4 在各项基准测试中的对比结果:
能力分类 | 基准测试 | 描述 | 更高分数更好 | Gemini Ultra | GPT-4 |
---|---|---|---|---|---|
通用 | MMLU | 57 个主题(包括 STEM、人文等)的问题表示 | 是 | 90.0% | 86.4%(5-shot, 报告) |
推理 | Big-Bench Hard | 需要多步骤推理的多样化挑战性任务 | 是 | 83.6%(3-shot) | 83.1%(3-shot, API) |
阅读理解 | DROP | 阅读理解(F1 分数) | 是 | 82.4(变量shots) | 80.9(3-shot, 报告) |
常识推理 | HellaSwag | 日常任务的常识推理 | 是 | 87.8%(10-shot*) | 95.3%(10-shot*, 报告) |
数学 | GSM8K | 基础算术操作(包括小学数学问题) | 是 | 94.4%(maj1@32) | 92.0%(5-shot CoT, 报告) |
数学 | MATH | 挑战性数学问题(包括代数、几何、预备微积分等) | 是 | 53.2%(4-shot) | 52.9%(4-shot, API) |
编码 | HumanEval | Python 代码生成 | 是 | 74.4%(0-shot, IT*) | 67.0%(0-shot*, 报告) |
编码 | Natural2Code | Python 代码生成,未泄露在网上的新保留数据集,类似 HumanEval | 是 | 74.9%(0-shot) | 73.9%(0-shot, API) |
图像 | MMMU | 大学级多学科推理问题 | 是 | 59.4%(0-shot pass@1, 仅 Gemini Ultra*) | 56.8%(0-shot pass@1, GPT-4V) |
图像 | VQAv2 | 自然图像理解 | 是 | 77.8%(0-shot, 仅 Gemini Ultra*) | 77.2%(0-shot, GPT-4V) |
图像 | TextVQA | 自然图像中的 OCR | 是 | 82.3%(0-shot, 仅 Gemini Ultra*) | 78.0%(0-shot, GPT-4V) |
图像 | DocVQA | 文档理解 | 是 | 90.9%(0-shot, 仅 Gemini Ultra*) | 88.4%(0-shot, GPT-4V) |
图像 | Infographic VQA | 信息图表理解 | 是 | 80.3%(0-shot, 仅 Gemini Ultra*) | 75.1%(0-shot, GPT-4V) |
图像 | MathVista | 视觉环境中的数学推理 | 是 | 53.0%(0-shot, 仅 Gemini Ultra*) | 49.9%(0-shot, GPT-4V) |
视频 | VATEX | 英语视频字幕(CIDEr) | 是 | 62.7(4-shot, Gemini Ultra) | 56.0(4-shot, DeepMind Flamingo) |
视频 | Perception Test MCQA | 视频问答 | 是 | 54.7%(0-shot, Gemini Ultra) | 46.3%(0-shot, SeViLA) |
音频 | CoVoST 2(21 种语言) | 自动语音翻译(BLEU 分数) | 是 | 40.1(Gemini Pro) | 29.1(Whisper v2) |
音频 | FLEURS(62 种语言) | 自动语音识别(基于错误率,越低越好) | 否 | 7.6%(Gemini Pro) | 17.6%(Whisper v3) |
尽管 ChatGPT 存在一些缺陷,例如容易产生幻觉和存在一些漏洞,但谷歌仍需证明 Gemini 能够真正给 ChatGPT 用户留下深刻印象。从目前的反馈来看,Gemini 尚未完全做到这一点。
Gemini 与 ChatGPT:定价模式的差异
Gemini 作为谷歌的一项增值服务,将被整合到谷歌的各种产品中。虽然这些服务中的许多是免费的,但用户在某种程度上是通过提供广告数据来付费的。目前,用户可以通过 Bard 和 Pixel 8 免费体验 Gemini 的部分功能。未来,Gemini 可能会成为一项付费服务,但具体的定价模式尚未公布。
相比之下,ChatGPT 的定价模式更为简单。用户可以通过注册免费使用 ChatGPT,也可以选择每月支付 20 美元订阅 ChatGPT Plus,以获得更高级的 LLM 服务和插件。此外,ChatGPT 还提供面向企业的服务,价格根据需求而定。
谷歌可能会在用户每天使用的免费产品(如搜索、YouTube、Gmail 等)中逐步推出 Gemini。这意味着用户可能无需支付额外费用即可使用 Gemini,但也可能无法完全避免使用该技术。
Gemini 与 ChatGPT:数据源和语言模型的对比
Bard 聊天机器人平台目前由 Bard LLM 和 Gemini Pro LLM 提供支持。Gemini 系列的全面推出将是一个循序渐进的过程,可能会涉及新旧 LLM 的组合使用。对于用户来说,这些变化将在后台进行,不会有明显感知。
当 Gemini Ultra 在 2024 年发布时,它将对 ChatGPT 的地位构成挑战。测试显示,Gemini Ultra 在 32 个类别中的 30 个类别中超越了 OpenAI 的模型。谷歌 DeepMind 首席科学家 Jeff Dean 表示,Gemini Ultra 在文本、推理、图像理解、视频理解以及语音识别和语音翻译等多个基准测试中取得了领先地位。
ChatGPT 的数据模型则主要来源于互联网上的公开数据。GPT-3.5 和 GPT-4 模型使用了截至 2021 年 9 月的数据。这意味着 Gemini 在数据新鲜度方面可能具有一定的优势。
Gemini 的发布是人工智能领域的一个重要里程碑。虽然 Gemini Pro 目前与 ChatGPT 相比优势不明显,但随着 Gemini Ultra 的发布以及 Gemini 在谷歌各项产品中的逐步整合,Gemini 有望在未来的人工智能市场中占据重要地位。谷歌与 OpenAI 之间的竞争也将推动人工智能技术的不断发展,为用户带来更智能、更便捷的体验。