昆仑万维开源Skywork-SWE-32B:软件工程AI模型的新突破

0

在快速发展的软件工程领域,昆仑万维于2025年6月20日宣布开源其自主研发的代码智能体基座模型——Skywork-SWE-32B。这一举措标志着该公司在人工智能驱动的软件开发工具领域迈出了重要一步。Skywork-SWE-32B模型在软件工程任务中表现出色,特别是在代码修复方面,被认为是同等参数规模下性能最强的模型之一。昆仑万维通过构建包含超过1万个可验证GitHub仓库任务实例的大规模数据集,系统地验证了大数据模型在软件工程任务中的数据缩放规律,为该模型的训练和优化奠定了坚实的基础。

image.png

Skywork-SWE-32B在SWE-bench Verified基准测试中取得了38.0%的pass@1准确率,刷新了Qwen2.5-Coder-32B系列模型在OpenHands代码框架下的最佳记录。更值得一提的是,通过引入测试时扩展技术,该模型的准确率进一步提升至47.0%,这一性能提升不仅超越了目前在32B参数规模以下的开源模型,还显著缩小了与一些闭源模型之间的性能差距。这一突破性的进展,无疑为开源社区注入了新的活力,并为软件工程领域带来了更多可能性。

为了解决当前市场上SWE任务主流数据集存在的问题,昆仑万维团队建立了一套三阶段自动化流程,用于收集和验证训练数据。在数据采集阶段,他们通过GitHub API抓取了超过15万个开源仓库的信息,并通过一系列严格的筛选步骤,最终保留了23,389个任务样本。这些筛选步骤旨在确保数据的质量和相关性,为后续的模型训练提供可靠的基础。数据验证是至关重要的一步,昆仑万维团队使用统一命令生成和Docker环境构建技术,确保每个任务样本的有效性,最终生成了10,169条高质量样本。这些样本经过精心挑选和验证,为Skywork-SWE-32B的训练提供了宝贵的数据资源。

image.png

在智能体轨迹生成阶段,昆仑万维团队采用了开源的OpenHands框架,并结合商用大模型作为基座,对每个任务执行了多轮交互,全面记录智能体的解决过程。通过这种方式,他们构建出8,209条高质量的验证通过轨迹,为Skywork-SWE-32B的训练提供了坚实的基础。这些轨迹记录了智能体在解决问题过程中的每一步,有助于模型更好地学习和理解软件工程任务的复杂性。Skywork-SWE-32B的成功发布,为软件工程智能体的发展注入了新的活力,展现了其在处理复杂开发场景下的巨大潜力和能力。该模型的开源,无疑将促进更多创新和合作,推动软件工程领域的进步。

Skywork-SWE-32B的开源,为开发者们提供了一个强大的工具,可以用于各种软件工程任务,例如代码修复、代码生成、代码理解等。该模型的优异性能和灵活性,使其成为研究和实践的理想选择。昆仑万维的这一举措,不仅展示了其在人工智能领域的实力,也体现了其对开源社区的承诺。

Skywork-SWE-32B的技术优势

  1. 卓越的代码修复能力:Skywork-SWE-32B在SWE-bench Verified基准测试中取得了38.0%的pass@1准确率,刷新了现有32B开源模型的最佳成绩。这意味着该模型在修复代码缺陷方面具有更高的效率和准确性,可以帮助开发者更快地解决问题,提高软件质量。
  2. 先进的测试时扩展技术:通过引入测试时扩展技术,Skywork-SWE-32B的准确率提升至47.0%,显著缩小了与闭源模型的性能差距。这项技术能够根据具体的测试环境和任务,动态地调整模型的参数和策略,从而提高模型的适应性和鲁棒性。
  3. 高质量的数据集:昆仑万维建立了自动化流程,构建出超过1万条高质量、可验证的SWE任务数据集,为模型的训练奠定了坚实的基础。这些数据集经过精心筛选和验证,确保了数据的质量和相关性,为模型提供了丰富的学习资源。

Skywork-SWE-32B的应用前景

  1. 自动化代码修复:Skywork-SWE-32B可以用于自动化代码修复,帮助开发者快速定位和修复代码中的缺陷,提高软件开发效率。该模型可以分析代码的语法和语义,识别潜在的错误,并提供修复建议。
  2. 代码生成:Skywork-SWE-32B可以用于代码生成,根据开发者的需求,自动生成代码片段或完整的程序。这可以大大减少开发者的编码工作量,提高开发效率。
  3. 代码理解:Skywork-SWE-32B可以用于代码理解,帮助开发者更好地理解代码的结构和功能。该模型可以分析代码的依赖关系和逻辑,提取关键信息,并生成代码摘要。
  4. 软件测试:Skywork-SWE-32B可以用于软件测试,自动生成测试用例,并评估代码的质量。这可以提高软件测试的效率和覆盖率,确保软件的质量。

昆仑万维的开源战略

昆仑万维开源Skywork-SWE-32B,体现了其拥抱开源社区的战略。通过开源,昆仑万维希望能够吸引更多的开发者参与到Skywork-SWE-32B的开发和应用中来,共同推动软件工程智能体的发展。开源还有助于提高模型的透明度和可信度,促进技术的交流和创新。

结论

Skywork-SWE-32B的发布和开源,是昆仑万维在人工智能领域的又一重要里程碑。该模型在软件工程任务中表现出色,具有广阔的应用前景。昆仑万维的开源战略,将有助于推动软件工程智能体的发展,为软件开发带来新的变革。随着人工智能技术的不断进步,我们有理由相信,软件工程智能体将在未来发挥越来越重要的作用,为人类创造更多的价值。