Kimi k1.5:月之暗面再突破,多模态推理比肩 OpenAI o1

21

在人工智能领域,多模态模型的研发一直是备受瞩目的焦点。近日,国内AI公司月之暗面发布了其最新力作——Kimi k1.5多模态思考模型,在数学、代码和多模态推理能力上全面比肩OpenAI o1满血版,引起了业界的广泛关注。这款模型的发布,不仅展示了月之暗面在AI技术上的强大实力,也为多模态模型的发展注入了新的活力。

Kimi k1.5:多模态推理的全新高度

Kimi k1.5:多模态推理的全新高度

Kimi k1.5的发布,标志着多模态模型发展的一个重要里程碑。这款模型在Long CoT(长思维链)模式下,其数学、代码和多模态推理能力,达到了长思考SOTA模型OpenAI o1满血版的水平。这是全球范围内,首次有OpenAI之外的公司达到这一高度。而在Short CoT(短思维链)模式下,Kimi k1.5也大幅领先于GPT-4o和Claude 3.5。

这一成就的取得,并非一蹴而就。月之暗面团队在过去几个月内,持续推出了K系列强化学习模型,从K0-math数学模型到K1视觉思考模型,再到如今的Kimi k1.5,每一次升级都带来了令人瞩目的性能提升。

技术创新:long2short 思维链的突破

Kimi k1.5的核心技术创新在于其提出的long2short思维链方法。与业界普遍采用的复杂技术做法不同,Kimi团队选择了一条更为优雅的技术路线,回归第一性原理。他们证明了,无需依赖蒙特卡洛树搜索、价值函数、过程奖励模型,也能让模型取得卓越的性能。

Kimi团队认为,可以将长CoT模型的推理先验转移到短CoT模型中,从而即使在有限的测试Token预算下也能提高性能。为了实现这一目标,他们采用了以下关键技术:

  1. 模型合并: 将长CoT模型和短CoT模型进行合并,不仅可以在泛化性上起到积极的作用,还可以提高Token的使用效率。这种方法通过简单地平均两个模型的权重,将一个长CoT模型与一个短模型结合,得到一个新的模型,而无需进行训练。
  2. 最短筛选采样: 由于模型对于同一问题生成的响应长度变化很大,因此团队设计了一种最短筛选采样方法。也就是,先对同一问题采样n次,然后选择最短的正确响应进行监督微调。
  3. DPO (Direct Preference Optimization): 利用长CoT模型生成多个响应样本,然后选择最短的正确解作为正样本,并将较长的响应视为负样本,包括正确但长度是选定正样本1.5倍的较长响应。这些正负样本对数据集形成了用于DPO训练的成对偏好数据。
  4. long2short强化学习: 在标准强化学习训练阶段之后,团队选择了一个在性能与Token使用效率之间提供最佳平衡的模型作为基础模型,并进行单独的long2short强化学习训练阶段。在第二阶段中,他们应用了“长度惩罚”,并显著减少了最大展开长度,以进一步惩罚可能正确但超出期望长度的响应。

强化学习基础设施:高效的训练与推理

强化学习基础设施:高效的训练与推理

Kimi k1.5系统设计了一种迭代同步的RL框架,旨在通过持续的学习与适应来增强模型的推理能力。该系统的一项关键创新是引入了部分回滚(Partial Rollout)技术,用于减少计算开销并优化复杂推理轨迹的处理。

部分回滚技术能够通过同时管理长轨迹和短轨迹的回滚,有效地解决处理长CoT特性时的资源分配和效率挑战,进而实现长上下文强化学习(RL)训练的规模扩展。此外,部分回滚的实现还提供了重复检测功能,能够识别生成内容中的重复序列并提前终止,从而减少不必要的计算,同时保持输出质量。

为了实现高效的训练与推理,Kimi团队还提出了一种用于训练和推理任务的混合部署策略,该策略利用Kubernetes的Sidecar容器共享所有可用GPU,将两种任务协同部署在同一个Pod中。这种策略能够促进资源的高效共享与管理,并使训练和推理可以独立迭代,从而实现更好的性能。

实验结果:多模态能力的全面提升

为了全面评估Kimi k1.5的性能,研究者对不同模态的各种基准进行了综合评估,包括文本基准(MMLU, IF-Eval, CLUEWSC, C-EVAL)、推理基准(HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500)和视觉基准(MMMU, MATH-Vision, MathVista)。

实验结果显示,Kimi k1.5长CoT模型通过长CoT监督微调和视觉-文本联合强化学习,在长距离推理上获得了显著的增强。模型在长上下文中的推理、理解和信息综合能力方面有了显著提升,标志着多模态AI能力的显著进步。

同时,Kimi k1.5短CoT模型集成了多种技术,包括传统监督微调方法、强化学习以及长到短知识蒸馏。实验结果表明,Kimi k1.5短CoT模型在覆盖多个领域的多项任务中表现出与领先的开源和专有模型相当或更优的性能。

此外,研究者还使用一个中型模型,来研究结合LLM的强化学习的扩展特性。实验结果表明,随着训练的进行,模型响应长度和性能准确率同时增加。尤其值得注意的是,在更具挑战性的基准测试中,响应长度的增长更为陡峭,这表明模型在处理复杂问题时学会生成更详尽的解决方案。

总结与展望

Kimi k1.5的发布,是月之暗面在多模态推理技术路线上迈出的重要一步。这款模型不仅在性能上达到了新的高度,更在技术路线上进行了创新性的探索。通过long2short思维链和强化学习等关键技术的应用,Kimi k1.5在长上下文推理、代码能力和数学能力上都取得了显著的提升,甚至能够媲美世界顶尖模型。