谷歌Gemma开源狙击Llama 2,Llama 3性能大跃升,LLaVA多模态能力再进化

2

谷歌近期在开源大模型领域动作频频,先是宣布其最强模型Gemini Ultra免费使用,紧接着又推出了具有超长上下文窗口的Gemini 1.5,能够处理长达一小时的视频或数万行代码。更令人瞩目的是,谷歌紧随其后发布了开源模型Gemma,这一系列动作似乎都在向OpenAI发起挑战。

Gemma系列模型的正式上线,标志着谷歌全面拥抱开源。Gemma模型采用了与Gemini相同的技术架构,主打轻量级和免费商用,这无疑为广大的AI应用开发者带来了福音。Gemma模型拥有2B和7B两个版本,在性能上全面超越了开源标杆Llama 2。每个版本都提供预训练和指令微调后的模型,方便用户在Kaggle、Colab Notebook、Google Cloud等平台使用。Gemma还支持JAX、PyTorch和TensorFlow,通过Keras 3.0进行推理和监督式微调,适应多种开发环境。

Gemma 模型

Gemma模型的发布在AI社区引起了广泛关注,Keras作者François Chollet甚至表示,最强开源大模型的地位已经易主。与传统的Transformer模型相比,Gemma进行了一些升级,例如7B版本使用多头注意力机制,而2B版本则采用多查询注意力机制。此外,Gemma还使用了旋转位置嵌入和GeGLU激活函数。

Gemma 2B/7B模型分别使用了2T和6T token进行训练,数据主要来自网络文档、数学和代码。为了兼容性,谷歌使用了Gemini的SentencePiece tokenizer子集,它可以分割数字,保留空格,并对未知token进行字节级编码。tokenizer部分的设计也受到了AI研究人员的关注,他们指出Gemma的tokenizer与GPT系列模型更为相似。

Meta也不甘示弱,推出了Llama 3模型。Llama 3在内容审查方面似乎有所放松,减少了不必要的拒绝回答,使得模型可以讨论更广泛的话题。

以下是一些Llama 3与Llama 2的对比示例:

  • 机场消磨时间

    • Llama 3:可以提供多种建议,例如逛商店、餐厅等。
    • Llama 2:则以AI助手的身份拒绝提供帮助。
  • 格式化硬盘

    • Llama 3:在提醒用户备份数据后,给出了Python代码示例。
    • Llama 2:直接拒绝了该请求,理由是不允许执行恶意操作。
  • 制造核弹

    • Llama 3:从核物理和数学的角度,估算了潜在的破坏力。
    • Llama 2:认为讨论制造核弹是不道德的,并强调了核武器的危害。

通过这些对比可以看出,Llama 3在处理一些敏感话题时更加开放,能够提供更详细的回答。用户可以通过Ollama下载并运行Llama 3模型,只需执行简单的命令即可。

Llama 3

除了Gemma和Llama 3,多模态大模型LLaVA也迎来了更新。LLaVA 1.6版本支持更高的图像分辨率,能够捕捉更多细节,并且在文本识别和推理能力方面有所提升。此外,新版本还采用了更为宽松的Apache 2.0许可或LLaMA 2 Community License。LLaVA 1.6提供了7B、13B和34B三个参数规模的模型。

用户可以通过Ollama运行LLaVA模型,并使用命令行或Python、JavaScript等编程语言进行交互。LLaVA支持图像输入,可以用于图像描述、目标检测、文本识别等任务。

例如,对于一张艺术作品图片,LLaVA可以准确描述图像内容,识别出画作中的人物和文字。对于一张包含文字的图片,LLaVA可以识别出图片中的文字内容。

总的来说,谷歌Gemma、Meta Llama 3和LLaVA的相继发布和更新,为AI开发者提供了更多的选择。这些模型在性能、功能和易用性方面都有所提升,有助于推动人工智能技术的普及和应用。AI技术的快速发展正不断重塑着我们的工作和生活方式。

在实际应用中,这些大模型可以用于各种场景。例如,Gemma可以用于智能客服、文本生成、代码编写等任务。Llama 3可以用于内容创作、知识问答、对话生成等场景。LLaVA则可以用于图像识别、图像描述、视觉问答等应用。

随着这些模型的不断发展和完善,我们可以期待更多创新性的应用涌现。例如,未来可能会出现更加智能的虚拟助手,能够理解用户的意图并提供个性化的服务。AI技术也有望在医疗、教育、金融等领域发挥更大的作用,提高效率和质量。

当然,AI技术的发展也带来了一些挑战,例如数据隐私、算法偏见等问题。我们需要在发展AI技术的同时,关注这些潜在的风险,并采取相应的措施加以解决。只有这样,才能确保AI技术能够真正为人类带来福祉。