Qwen技术报告深度解读:阿里千问大模型的创新实践

47

Qwen技术报告深度解读:阿里千问大模型的创新与实践

本文将深入剖析阿里巴巴推出的Qwen(千问)系列大型语言模型技术报告,着重分析其模型架构、训练策略以及在代码生成、数学推理等专业领域的应用。我们将结合论文细节和transformers库中的Qwen2Model源码,探讨Qwen模型的技术亮点与未来发展趋势。

论文概述

论文标题: QWEN TECHNICAL REPORT

论文地址: https://arxiv.org/abs/2309.16609

发表时间: 2023年9月28日

研究领域: NLP, LLM, RoPE, RMSNorm

提出模型: Qwen

Qwen模型的技术亮点

Qwen模型是阿里巴巴在大模型领域的最新力作,它融合了诸多前沿技术,旨在提升模型效率、性能以及长文本理解能力。其核心组件包括RoPE位置编码、RMSNorm归一化、SwiGLU激活函数和SdpaAttention等。

RoPE(旋转位置编码): 由苏剑林提出的RoPE位置编码,能够有效地处理长序列数据,提升模型对外推能力的泛化性。

RMSNorm(均方根归一化): RMSNorm是一种高效且易于理解的归一化技术,它简化了Layer Normalization的计算过程,加速了模型训练。

SwiGLU激活函数: SwiGLU是GLU(Gated Linear Unit)的一种变体,它在Transformer模型中表现出色,能够提升模型的表达能力和性能。

SdpaAttention: (Scaled dot-product attention) 是transformer模型的核心组件,能够让模型关注到输入序列中最重要的部分。

模型训练的策略

Qwen模型的训练过程遵循业界通用的大模型训练范式,侧重于优化模型的各个组件,如归一化方法、位置编码技术等。同时,Qwen模型还注重提升长文本理解能力和外推能力,采用了多种注意力机制和NTK技术。

数据准备与清洗

Qwen模型的训练数据涵盖了公共网络文档、百科全书、书籍、代码等多种来源,并且包含多种语言,其中英语和中文占比较大。为了保证数据集的质量,研究团队采用了一系列数据清洗方法,过滤掉低质量和噪声数据。

词汇构建

Qwen模型使用BPE(Byte Pair Encoding)算法来生成token,最终构建了一个包含152K词汇的词表。

模型架构细节

Qwen模型的架构基于Llama模型进行修改,具体修改包括:

  1. 位置嵌入: 采用旋转位置编码RoPE。
  2. 偏置: 在计算QKV(Query, Key, Value)向量的线性层中添加偏置。
  3. 预先归一化和RMSNorm: 在模型的起始阶段进行归一化,并采用RMSNorm。
  4. 激活函数: 使用SwiGLU激活函数。

长文本处理与外推能力

为了提升模型的外推能力和长文本处理能力,Qwen模型采用了动态NTK感知插值和两种注意力机制:LogN-Scaling和窗口注意力。

  • LogN-Scaling: 通过一个取决于上下文长度与训练长度之比的因子重新调整查询和值的点积,确保注意力值的熵随着上下文长度的增长保持稳定。
  • 窗口注意力: 将注意力限制在有限的上下文窗口中,防止模型关注过远的标记。Qwen模型还为每一层分配不同的窗口大小,对较低层使用较短的窗口,对较高层使用较长的窗口。

对齐(Alignment):提升LLM的拟人化程度

在LLM领域,对齐是指提升LLM的性能,使其达到或接近人类水平。Qwen模型采用了监督微调(SFT)和人类反馈强化学习(RLHF)等对齐技术,提升模型进行自然对话的能力。

  • 监督微调(SFT): 通过多轮对话数据微调对话模型。Qwen模型采用多种风格注释对话、排除提示模板中格式化的数据、优先考虑语言模型的安全性、利用ChatML风格的格式等方法来提升性能。
  • 人类反馈强化学习(RLHF): 通过人类反馈信号训练奖励模型,并使用该奖励模型来指导语言模型的训练。实现RLHF需要设计并微调奖励模型,并需要大量高质量的排序数据。

专业领域模型:Code-Qwen和Math-Qwen

Qwen系列模型还包括针对特定领域的专业模型,如Code-Qwen和Math-Qwen。

  • Code-Qwen: 专门用于代码生成的模型。
  • Math-Qwen: 专门用于数学推理的模型。

相关工作

Qwen技术报告中提到了LLM、对齐、工具使用和代理等相关工作,并对GPT、T5、ChatGPT、LLaMA、ChatGLM2等模型进行了简要介绍。报告还指出了SFT和RLHF两种主要的对齐方法,以及PEFT(Parameter-Efficient Fine-Tuning)方法的局限性。

此外,报告还提及了Agent、RAG(Retrieval-Augmented Generation)、LangChain等概念。

结论与展望

Qwen系列大型语言模型具有14B、7B和1.8B参数,并使用SFT和RLHF等技术进行微调。此外,Qwen系列还包括用于编码和数学的专用模型,如CODE-QWEN、CODE-QWEN-CHAT和MATH-QWEN-CHAT。阿里巴巴开源了Qwen模型,并期待大家使用。

Qwen模型的技术创新和实践经验为大模型领域的发展提供了有益的参考。随着技术的不断进步,我们期待Qwen模型在未来能够取得更大的突破。