在人工智能领域,奖励模型扮演着至关重要的角色,尤其是在从人类反馈中进行强化学习(RLHF)的过程中。2025年7月4日,昆仑万维再次开源了其第二代奖励模型Skywork-Reward-V2系列,这一举动无疑为开源社区注入了新的活力。
Skywork-Reward-V2系列包含了八个基于不同基座模型的奖励模型,参数规模从6亿到80亿不等。令人瞩目的是,该系列模型一经推出,便在七大主流奖励模型评测榜单中全面夺魁,成为了开源奖励模型领域备受关注的焦点。
为了打造新一代的奖励模型,昆仑万维构建了一个包含4000万对偏好对比的混合数据集,命名为Skywork-SynPref-40M。在数据处理方面,团队采用了人机协同的两阶段流程,巧妙地将人工标注的高质量与模型的规模化处理能力相结合。
在第一阶段,团队首先构建了一个未经验证的初始偏好池。随后,借助大语言模型生成辅助属性,人工标注者依照严格的协议和外部工具,以及大语言模型,对部分数据进行精细审核,最终构建出一个小规模但高质量的“金标准”数据集。这个“金标准”数据集成为了后续模型训练的重要基石。
紧接着,团队以“金标准”数据的偏好标签为引导,结合大语言模型大规模生成高质量的“银标准”数据,并进行多轮迭代优化。通过这种方式,他们有效地提升了数据的质量和规模。
第二阶段则侧重于自动化的大规模数据扩展。团队利用训练完成的奖励模型执行一致性过滤,这不仅减少了人工标注的负担,还实现了偏好数据规模与质量的平衡。这种自动化扩展的方式,为模型的进一步提升提供了有力支持。
基于优质混合偏好数据开发的Skywork-Reward-V2系列,展现出了广泛的适用性和出色的能力。它涵盖了对人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及best-of-N扩展能力等多个维度。这些维度的全面覆盖,使得该系列模型在各种应用场景中都能表现出色。
在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七个主流奖励模型评估基准上,Skywork-Reward-V2系列全面达到了当前最优(SOTA)水平。这一成就充分证明了该系列模型在技术上的领先地位。
即使是基于最小模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能也几乎达到了上一代最强模型的平均水平。而Skywork-Reward-V2-Qwen3-1.7B更是超越了当前开源奖励模型的SOTA,成为了新的标杆。最大规模的Skywork-Reward-V2-Llama-3.1-8B在所有主流基准测试中全面超越,成为了当前整体表现最优的开源奖励模型。
该系列模型还具备广泛覆盖多维人类偏好能力。在通用偏好评估基准上,它优于多个参数更大的模型及最新生成型奖励模型。这意味着,在理解和模拟人类偏好方面,Skywork-Reward-V2系列具有更强的能力。
在客观正确性评估方面,知识密集型任务表现突出。这表明,该系列模型在处理需要大量知识的任务时,能够给出更准确、更可靠的答案。在多项高级能力评估中,包括Best-of-N任务、偏见抵抗能力测试、复杂指令理解及真实性判断等,Skywork-Reward-V2系列均取得了领先成绩,展现出了出色的泛化能力与实用性。
此外,数据筛选流程的高度扩展性显著提升了奖励模型性能。经过精细筛选和过滤的偏好数据,在多轮迭代训练中能持续有效提升模型整体性能,尤其在第二阶段全自动数据扩展中表现显著。早期版本实验显示,仅用1.8%的高质量数据训练8B规模模型,性能就超过当前70B级SOTA奖励模型,印证了Skywork-SynPref数据集在规模和质量上的优势。
Skywork-Reward-V2的开源,无疑将加速奖励模型技术的发展,并为更广泛的AI应用提供强大的支持。它的出现,不仅是昆仑万维在AI领域的又一重要贡献,也为整个开源社区带来了新的机遇。
HuggingFace地址:
https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84
GitHub地址: