在人工智能领域,推理模型的突破一直是研究者们关注的焦点。昆仑万维开源的 Skywork-OR1 系列推理模型,以其卓越的性能和独特的技术原理,为大模型在逻辑推理和复杂任务求解方面开辟了新的可能性。该系列模型包含 Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview 三款模型,分别针对不同的应用场景,展现出强大的实力。
Skywork-OR1 的核心功能
Skywork-OR1 系列模型不仅仅是参数量的堆砌,更在于其在逻辑推理、编程任务支持、代码优化与调试、多领域任务适应以及多轮对话与交互等方面的卓越表现。这些功能的实现,得益于其独特的技术原理和训练策略。
- 逻辑推理能力:Skywork-OR1 具备强大的逻辑推理能力,能够处理复杂的逻辑关系和多步骤推理任务。这使得它在解决需要深度思考的问题时,能够提供更准确和可靠的答案。
- 编程任务支持:该模型支持生成高质量的代码,并且能够支持多种编程语言。这为开发人员提供了一个强大的工具,可以加速软件开发过程。
- 代码优化与调试:Skywork-OR1 能够对代码进行优化和调试,提高代码的可读性和执行效率。这有助于开发人员编写出更高效、更可靠的程序。
- 多领域任务适应:Skywork-OR1 具备通用推理能力,可以支持处理其他领域的复杂任务。这意味着它可以应用于各种不同的行业和领域,解决各种各样的问题。
- 多轮对话与交互:该模型支持多轮对话,能够根据上下文信息逐步解决问题,提供更连贯的推理过程。这使得它在人机交互方面具有很大的潜力。
Skywork-OR1 的技术原理
Skywork-OR1 能够取得如此优异的性能,离不开其背后的技术原理。该模型采用了高质量数据集、数据预处理与过滤、训练策略、损失函数优化以及多阶段训练等多种技术手段,从而实现了卓越的推理能力。
高质量数据集:Skywork-OR1 基于高质量的数学数据集,如 NuminaMath-1.5(约 89.6 万题),并筛选出 AIME、Olympiads 等高难度子集,总计约 11 万道数学题目。此外,该模型还使用了 LeetCode 和 TACO 数据,经过严格筛选和去重,保留单元测试完整、验证通过的问题,最终获得了 13.7K 条高质量代码问题。高质量的数据集为模型的训练奠定了坚实的基础。
数据预处理与过滤:为了确保数据的质量,Skywork-OR1 对每道题进行多轮采样验证答案,剔除“全对”或“全错”的题目,避免无效数据对训练的影响。同时,该模型还结合人类评审和 LLM 自动判题机制,清理语义不清、信息不全、格式错误或含有无关内容的题目。数据预处理与过滤是保证模型性能的关键步骤。
训练策略:Skywork-OR1 基于 GRPO 进行模型训练,多阶段训练逐步增加上下文窗口长度,提升模型的长链思维能力。在训练前和训练过程中分别进行离线和在线过滤,动态剔除无效样本,确保训练数据的有效性和挑战性。此外,该模型还在强化学习采样时用高采样温度(τ=1.0),基于自适应熵控制机制,增强模型的探索能力,避免过早陷入局部最优。有效的训练策略是提升模型性能的重要保障。
损失函数优化:为了进一步提升模型的性能,Skywork-OR1 在训练中移除 KL 损失项,让模型充分地探索和优化推理能力。同时,该模型还将策略损失在训练批次内的所有 token 上进行平均,提升优化过程的一致性与稳定性。损失函数优化是提高模型训练效率的关键手段。
多阶段训练:Skywork-OR1 基于多阶段训练逐步扩展上下文窗口长度,让模型在有限 token 内高效完成任务,逐步掌握复杂的长链思维能力。在多阶段训练初期,该模型基于特定策略处理截断样本,确保模型在进入下一阶段时迅速提升性能。多阶段训练是提升模型泛化能力的重要方法。
Skywork-OR1 的性能表现
Skywork-OR1 系列模型在多个基准测试中表现出色,展现出强大的性能。例如,在 AIME24 和 AIME25 数学数据集上,Skywork-OR1-Math-7B 分别取得了 69.8% 和 52.3% 的高分,远超同规模的主流模型。在竞赛编程任务中,Skywork-OR1-32B-Preview 在 LiveCodeBench 数据集上的表现接近 DeepSeek-R1(671B 参数),展现卓越的性价比。
数学推理任务
- 通用模型 Skywork-OR1-7B-Preview 和 Skywork-OR1-32B-Preview 在 AIME24 与 AIME25 数据集上实现同参数规模最优表现,展现强大数学推理能力。
- 专项模型 Skywork-OR1-Math-7B 在 AIME24 和 AIME25 上分别取得 69.8 与 52.3 的高分,远超当前主流 7B 级别模型,凸显高阶数学推理专业优势。
- Skywork-OR1-32B-Preview 在所有 benchmark 上超越 QwQ-32B,在 AIME25 上基本与 R1 持平。
竞赛编程任务
- 通用模型 Skywork-OR1-7B-Preview 与 Skywork-OR1-32B-Preview 在 LiveCodeBench 数据集上取得同等参数规模最优性能。
- Skywork-OR1-32B-Preview 代码生成与问题求解能力接近 DeepSeek-R1(参数规模 671B),在压缩模型体量的同时实现卓越性价比,体现训练策略先进性。
Skywork-OR1-Math-7B 表现
- 在 AIME24 上训练准确率曲线显示性能稳定提升,模型在 AIME24 和 AIME25 上分别达到 69.8% 和 52.3%,超越 OpenAI-o3-mini (low),达当前尺寸 SOTA 性能。
- 在 Livecodebench 上从 37.6% 提升到 43.6%,相比基线模型显著提升,显示训练方法领域泛化性好。
Skywork-OR1 的应用场景
Skywork-OR1 系列模型具有广泛的应用前景,可以应用于数学教育、科研辅助、编程开发、数据分析以及 AI 研究等多个领域。
- 数学教育:Skywork-OR1 可以辅助学生解题,提供思路与步骤,助力教师备课。通过与学生的互动,该模型可以帮助学生更好地理解数学概念,提高解题能力。同时,教师也可以利用该模型来设计更有效的教学方案。
- 科研辅助:Skywork-OR1 可以帮助研究人员探索复杂模型,验证猜想,推导公式。在科研过程中,研究人员经常需要处理大量的数据和复杂的公式。Skywork-OR1 可以帮助他们更高效地完成这些任务,从而加速科研进程。
- 编程开发:Skywork-OR1 可以生成代码框架,优化代码,辅助调试,提升开发效率。对于开发人员来说,编写代码是一项耗时且繁琐的任务。Skywork-OR1 可以自动生成代码框架,优化代码,并辅助调试,从而大大提高开发效率。
- 数据分析:Skywork-OR1 可以支持金融、商业等领域决策,预测趋势,评估风险。在金融和商业领域,数据分析是做出决策的重要依据。Skywork-OR1 可以帮助分析师更准确地预测趋势,评估风险,从而做出更明智的决策。
- AI 研究:Skywork-OR1 可以作为研究平台,推动推理模型架构和算法的改进。作为一个开源项目,Skywork-OR1 可以为研究人员提供一个平台,让他们可以在此基础上进行研究,从而推动推理模型架构和算法的改进。
如何获取 Skywork-OR1
如果您对 Skywork-OR1 感兴趣,可以通过以下方式获取更多信息:
- 项目官网:https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reasoner
- GitHub 仓库:https://github.com/SkyworkAI/Skywork-OR1
- HuggingFace 模型库:https://huggingface.co/collections/Skywork/skywork-or1
通过这些渠道,您可以了解 Skywork-OR1 的最新进展,并获取相关的代码和模型。