DeepSWE:基于Qwen3-32B的开源AI Agent框架,强化学习登顶之路

0

在人工智能领域,开源的创新浪潮正以前所未有的速度推进。近日,Together.ai 与 Agentica 联合发布了一款名为 DeepSWE 的开源 AI Agent 框架,再次将这一趋势推向了新的高潮。DeepSWE 并非纸上谈兵,而是基于强大的 Qwen3-32B 模型,并完全通过强化学习进行训练,这为开发者社区提供了一个极具价值的学习和实验平台。

DeepSWE 的开源不仅限于模型权重,更将训练方法、日志和数据集等所有相关内容一并公开在 Hugging Face 上。这种透明度极高的做法,无疑将加速 AI Agent 技术的普及和发展,让更多的开发者能够深入了解其内部机制,并在此基础上进行改进和创新。

image.png

在 SWE-Bench-Verified 测试中,DeepSWE 的表现令人瞩目。在 64k 的最大上下文长度和 100 的最大环境步骤下,经过 16 次运行,Pass@1 准确率达到了 42.2%。更令人兴奋的是,经过混合测试后,其性能更是提升至 59%,一举成为所有开源代理框架中的佼佼者。这一成绩不仅证明了 DeepSWE 的卓越性能,也预示着其在实际应用中具有巨大的潜力。

DeepSWE 的成功并非偶然,而是得益于其先进的训练方法和强大的技术支持。该系统采用了 rLLM 框架,这是一个专门用于语言智能体后期训练的系统。为了保证训练效果,研究团队在 64 个 H100GPU 上,对来自 R2E-Gym 训练环境的 4500 个真实世界软件工程任务进行了为期 6 天的训练。这些任务涵盖了解决 GitHub 问题、实现新代码功能和调试等多个方面,充分展示了现实世界软件工程的多样性和复杂性。

在训练过程中,DeepSWE 通过与环境的互动,不断学习如何在广泛的代码库中进行浏览、针对性编辑代码、运行构建和测试的 shell 命令,并在处理实际拉取请求时优化解决方案。这种强化学习的方式,使得 DeepSWE 能够不断提升自身的能力,更好地适应各种复杂的软件工程任务。

为了确保训练数据的质量,研究团队在数据集管理方面也下足了功夫。他们使用了 R2E-Gym 子集中的 4500 个问题,确保了训练数据的纯净性和相关性。这种精益求精的态度,为 DeepSWE 的成功奠定了坚实的基础。

训练环境是 AI Agent 训练的关键因素之一。DeepSWE 的训练环境围绕 R2E-Gym 构建,支持可扩展的高质量可执行软件工程环境。这种环境能够模拟真实世界中的各种复杂场景,帮助 DeepSWE 更好地学习和适应。

奖励机制是强化学习的核心组成部分。DeepSWE 采用了稀疏结果奖励模型,只有当生成的补丁通过所有测试时才给予正奖励。这种机制能够促使 DeepSWE 更加努力地寻找最优解决方案,从而提高学习效率。

除了先进的框架和环境外,DeepSWE 还采用了改进版的 GRPO++ 算法。通过整合多项创新,该算法实现了更稳定和高效的训练过程。此外,研究人员还发现,在针对软件工程任务时,增加输出 token 数量的效果不明显,而通过滚动数量扩展则显著提升了模型性能。这一发现为未来的研究提供了重要的参考。

DeepSWE 的开源,无疑将对 AI Agent 领域产生深远的影响。它不仅为开发者提供了一个强大的工具,更将推动强化学习在实际应用中的进步。我们有理由相信,在 DeepSWE 的引领下,AI Agent 技术将迎来更加辉煌的未来。

DeepSWE 的技术亮点解析

DeepSWE 能够取得如此优异的成绩,并非一蹴而就,而是集合了多项关键技术创新。接下来,我们将深入剖析 DeepSWE 的技术亮点,帮助读者更好地理解其背后的原理。

  1. 基于 Qwen3-32B 模型

Qwen3-32B 是阿里巴巴开源的一款高性能语言模型,拥有强大的语言理解和生成能力。DeepSWE 选择 Qwen3-32B 作为基础模型,充分利用了其在自然语言处理方面的优势,为 AI Agent 的智能化提供了坚实的基础。

  1. 强化学习训练

强化学习是一种通过与环境互动来学习最优策略的方法。DeepSWE 完全通过强化学习进行训练,使其能够不断地从经验中学习,并逐步提升自身的能力。这种训练方式使得 DeepSWE 能够更好地适应各种复杂的软件工程任务。

  1. rLLM 框架

rLLM 框架是一个专门用于语言智能体后期训练的系统。它提供了丰富的工具和接口,方便开发者进行模型训练和评估。DeepSWE 采用 rLLM 框架,可以更加高效地进行训练和优化。

  1. 改进的 GRPO++ 算法

GRPO++ 算法是一种先进的强化学习算法。DeepSWE 在 GRPO++ 算法的基础上进行了改进,使其更加适合软件工程任务的特点。通过整合多项创新,改进后的 GRPO++ 算法实现了更稳定和高效的训练过程。

  1. R2E-Gym 训练环境

R2E-Gym 是一个专门用于软件工程任务的训练环境。它提供了丰富的代码库和测试用例,方便开发者进行 AI Agent 的训练和评估。DeepSWE 的训练环境围绕 R2E-Gym 构建,可以模拟真实世界中的各种复杂场景,帮助 AI Agent 更好地学习和适应。

DeepSWE 的应用前景展望

DeepSWE 作为一款强大的 AI Agent 框架,具有广泛的应用前景。以下是一些可能的应用场景:

  1. 自动化代码修复

DeepSWE 可以用于自动化代码修复,帮助开发者快速定位和修复代码中的错误。通过分析代码和测试用例,DeepSWE 可以自动生成修复补丁,并提交到代码库中。

  1. 自动化代码生成

DeepSWE 可以用于自动化代码生成,帮助开发者快速生成新的代码功能。通过理解开发者的需求,DeepSWE 可以自动生成相应的代码,并集成到现有系统中。

  1. 自动化代码审查

DeepSWE 可以用于自动化代码审查,帮助开发者提高代码质量。通过分析代码的风格和结构,DeepSWE 可以自动检测潜在的问题,并提供修改建议。

  1. 智能软件开发助手

DeepSWE 可以作为智能软件开发助手,为开发者提供各种辅助功能,例如代码补全、代码搜索和代码重构等。通过与开发者的互动,DeepSWE 可以不断学习和适应开发者的习惯,从而更好地服务于开发者。

结论

DeepSWE 的发布是 AI Agent 领域的一个重要里程碑。它不仅展示了 AI Agent 技术的强大潜力,也为开发者提供了一个宝贵的学习和实验平台。我们期待 DeepSWE 在未来的发展中能够取得更大的突破,为软件工程领域带来更多的创新。