在人工智能技术日新月异的今天,昆仑万维再次走在了技术开源的前沿。2025年7月4日,该公司宣布开源其第二代奖励模型Skywork-Reward-V2系列,这一举动无疑为整个AI社区注入了新的活力。该系列模型包含了从6亿到80亿不同参数规模的8个奖励模型,它们基于不同的基座模型构建而成,并在七大主流奖励模型评测榜单中全面领先,一举成为开源奖励模型领域的焦点。
奖励模型在强化学习(RLHF)过程中扮演着至关重要的角色,它们能够从人类的反馈中学习,从而优化模型的行为。为了打造新一代的奖励模型,昆仑万维投入了巨大的精力,构建了一个包含4000万对偏好对比的混合数据集,命名为Skywork-SynPref-40M。这个数据集的构建过程充满了创新,采用了人机协同的两阶段流程,将人工标注的高质量与模型的规模化处理能力相结合。
在第一阶段,团队首先构建了一个未经严格验证的初始偏好池。然后,他们借助大型语言模型生成辅助属性,人工标注者再依照严格的协议和外部工具,以及大型语言模型对部分数据进行精细审核,最终构建出一个小规模但高质量的“金标准”数据集。这个数据集的质量之高,为后续的模型训练奠定了坚实的基础。
接下来,团队以金标准数据偏好标签为引导,结合大型语言模型大规模生成高质量的“银标准”数据,并进行多轮迭代优化。这一过程充分利用了大型语言模型的生成能力,大大提高了数据生成的效率和质量。
第二阶段则转向自动化大规模数据扩展。在这个阶段,团队使用训练完成的奖励模型执行一致性过滤,从而减少人工标注的负担,同时实现偏好数据规模与质量的平衡。这种自动化数据扩展的方法,不仅提高了效率,还保证了数据的质量,为模型的训练提供了充足的“燃料”。
基于这个优质的混合偏好数据,昆仑万维开发出了Skywork-Reward-V2系列模型。这个系列的模型展现出了广泛的适用性和出色的能力,涵盖了对人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及best-of-N扩展能力等多个维度。这些维度都是衡量一个奖励模型好坏的重要指标,Skywork-Reward-V2系列模型在这些方面都表现出色。
在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七个主流奖励模型评估基准上,Skywork-Reward-V2系列模型全面达到了当前最优(SOTA)水平。这一成就充分证明了昆仑万维在奖励模型领域的实力。
值得一提的是,即使是基于最小模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能也几乎达到了上一代最强模型的平均水平。而Skywork-Reward-V2-Qwen3-1.7B更是超越了当前开源奖励模型的SOTA。最大规模的Skywork-Reward-V2-Llama-3.1-8B在所有主流基准测试中全面超越,成为了当前整体表现最优的开源奖励模型。
Skywork-Reward-V2系列模型还具备广泛覆盖多维人类偏好能力。在通用偏好评估基准上,它优于多个参数更大的模型及最新生成型奖励模型。这表明该系列模型在理解和捕捉人类偏好方面具有更强的能力。
在客观正确性评估方面,Skywork-Reward-V2系列模型在知识密集型任务中表现突出。这意味着该系列模型在处理需要大量知识的任务时,能够给出更准确的答案。
此外,在多项高级能力评估中,包括Best-of-N任务、偏见抵抗能力测试、复杂指令理解及真实性判断等,Skywork-Reward-V2系列模型均取得了领先成绩,展现出了出色的泛化能力与实用性。这些高级能力对于奖励模型来说至关重要,它们能够帮助模型更好地适应不同的任务和场景。
数据筛选流程的高度扩展性也显著提升了奖励模型的性能。经过精细筛选和过滤的偏好数据,在多轮迭代训练中能持续有效提升模型整体性能,尤其在第二阶段全自动数据扩展中表现显著。这表明,高质量的数据对于模型的训练至关重要。
早期版本实验显示,仅用1.8%的高质量数据训练8B规模模型,性能就超过当前70B级SOTA奖励模型,这充分印证了Skywork-SynPref数据集在规模和质量上的优势。这个实验结果令人印象深刻,它表明,在数据质量足够高的情况下,即使使用较小的数据集,也能够训练出性能优异的模型。
昆仑万维此次开源Skywork-Reward-V2系列模型,无疑将加速人工智能技术的发展。通过开放源代码,昆仑万维将自己的技术成果分享给整个社区,从而促进技术的交流和进步。这一举动不仅体现了昆仑万维的技术实力,更展现了其作为一家科技公司的社会责任感。
未来,我们可以期待Skywork-Reward-V2系列模型在更多的领域得到应用,为人工智能的发展带来更多的可能性。同时,我们也期待更多的企业能够像昆仑万维一样,积极参与到开源社区中来,共同推动人工智能技术的进步。
昆仑万维的Skywork-Reward-V2的开源,不仅仅是技术上的一次进步,更是AI领域开放合作精神的体现。通过分享优质的资源和技术,昆仑万维正在帮助构建一个更加繁荣和创新的AI生态系统。Skywork-Reward-V2的广泛适用性和卓越性能,预示着它将在未来的AI研究和应用中扮演重要角色。让我们共同期待这一开源模型为人工智能领域带来更多的惊喜和突破。