DeepSWE：基于Qwen3-32B的开源AI Agent框架，强化学习登顶之路

在人工智能领域，开源的创新浪潮正以前所未有的速度推进。近日，Together.ai 与 Agentica 联合发布了一款名为 DeepSWE 的开源 AI Agent 框架，再次将这一趋势推向了新的高潮。DeepSWE 并非纸上谈兵，而是基于强大的 Qwen3-32B 模型，并完全通过强化学习进行训练，这为开发者社区提供了一个极具价值的学习和实验平台。

DeepSWE 的开源不仅限于模型权重，更将训练方法、日志和数据集等所有相关内容一并公开在 Hugging Face 上。这种透明度极高的做法，无疑将加速 AI Agent 技术的普及和发展，让更多的开发者能够深入了解其内部机制，并在此基础上进行改进和创新。

在 SWE-Bench-Verified 测试中，DeepSWE 的表现令人瞩目。在 64k 的最大上下文长度和 100 的最大环境步骤下，经过 16 次运行，Pass@1 准确率达到了 42.2%。更令人兴奋的是，经过混合测试后，其性能更是提升至 59%，一举成为所有开源代理框架中的佼佼者。这一成绩不仅证明了 DeepSWE 的卓越性能，也预示着其在实际应用中具有巨大的潜力。

DeepSWE 的成功并非偶然，而是得益于其先进的训练方法和强大的技术支持。该系统采用了 rLLM 框架，这是一个专门用于语言智能体后期训练的系统。为了保证训练效果，研究团队在 64 个 H100GPU 上，对来自 R2E-Gym 训练环境的 4500 个真实世界软件工程任务进行了为期 6 天的训练。这些任务涵盖了解决 GitHub 问题、实现新代码功能和调试等多个方面，充分展示了现实世界软件工程的多样性和复杂性。

在训练过程中，DeepSWE 通过与环境的互动，不断学习如何在广泛的代码库中进行浏览、针对性编辑代码、运行构建和测试的 shell 命令，并在处理实际拉取请求时优化解决方案。这种强化学习的方式，使得 DeepSWE 能够不断提升自身的能力，更好地适应各种复杂的软件工程任务。

为了确保训练数据的质量，研究团队在数据集管理方面也下足了功夫。他们使用了 R2E-Gym 子集中的 4500 个问题，确保了训练数据的纯净性和相关性。这种精益求精的态度，为 DeepSWE 的成功奠定了坚实的基础。

训练环境是 AI Agent 训练的关键因素之一。DeepSWE 的训练环境围绕 R2E-Gym 构建，支持可扩展的高质量可执行软件工程环境。这种环境能够模拟真实世界中的各种复杂场景，帮助 DeepSWE 更好地学习和适应。

奖励机制是强化学习的核心组成部分。DeepSWE 采用了稀疏结果奖励模型，只有当生成的补丁通过所有测试时才给予正奖励。这种机制能够促使 DeepSWE 更加努力地寻找最优解决方案，从而提高学习效率。

除了先进的框架和环境外，DeepSWE 还采用了改进版的 GRPO++ 算法。通过整合多项创新，该算法实现了更稳定和高效的训练过程。此外，研究人员还发现，在针对软件工程任务时，增加输出 token 数量的效果不明显，而通过滚动数量扩展则显著提升了模型性能。这一发现为未来的研究提供了重要的参考。

DeepSWE 的开源，无疑将对 AI Agent 领域产生深远的影响。它不仅为开发者提供了一个强大的工具，更将推动强化学习在实际应用中的进步。我们有理由相信，在 DeepSWE 的引领下，AI Agent 技术将迎来更加辉煌的未来。

DeepSWE 的技术亮点解析

DeepSWE 能够取得如此优异的成绩，并非一蹴而就，而是集合了多项关键技术创新。接下来，我们将深入剖析 DeepSWE 的技术亮点，帮助读者更好地理解其背后的原理。

基于 Qwen3-32B 模型

Qwen3-32B 是阿里巴巴开源的一款高性能语言模型，拥有强大的语言理解和生成能力。DeepSWE 选择 Qwen3-32B 作为基础模型，充分利用了其在自然语言处理方面的优势，为 AI Agent 的智能化提供了坚实的基础。

强化学习训练

强化学习是一种通过与环境互动来学习最优策略的方法。DeepSWE 完全通过强化学习进行训练，使其能够不断地从经验中学习，并逐步提升自身的能力。这种训练方式使得 DeepSWE 能够更好地适应各种复杂的软件工程任务。

rLLM 框架

rLLM 框架是一个专门用于语言智能体后期训练的系统。它提供了丰富的工具和接口，方便开发者进行模型训练和评估。DeepSWE 采用 rLLM 框架，可以更加高效地进行训练和优化。

改进的 GRPO++ 算法

GRPO++ 算法是一种先进的强化学习算法。DeepSWE 在 GRPO++ 算法的基础上进行了改进，使其更加适合软件工程任务的特点。通过整合多项创新，改进后的 GRPO++ 算法实现了更稳定和高效的训练过程。

R2E-Gym 训练环境

R2E-Gym 是一个专门用于软件工程任务的训练环境。它提供了丰富的代码库和测试用例，方便开发者进行 AI Agent 的训练和评估。DeepSWE 的训练环境围绕 R2E-Gym 构建，可以模拟真实世界中的各种复杂场景，帮助 AI Agent 更好地学习和适应。

DeepSWE 的应用前景展望

DeepSWE 作为一款强大的 AI Agent 框架，具有广泛的应用前景。以下是一些可能的应用场景：

自动化代码修复

DeepSWE 可以用于自动化代码修复，帮助开发者快速定位和修复代码中的错误。通过分析代码和测试用例，DeepSWE 可以自动生成修复补丁，并提交到代码库中。

自动化代码生成

DeepSWE 可以用于自动化代码生成，帮助开发者快速生成新的代码功能。通过理解开发者的需求，DeepSWE 可以自动生成相应的代码，并集成到现有系统中。

自动化代码审查

DeepSWE 可以用于自动化代码审查，帮助开发者提高代码质量。通过分析代码的风格和结构，DeepSWE 可以自动检测潜在的问题，并提供修改建议。

智能软件开发助手

DeepSWE 可以作为智能软件开发助手，为开发者提供各种辅助功能，例如代码补全、代码搜索和代码重构等。通过与开发者的互动，DeepSWE 可以不断学习和适应开发者的习惯，从而更好地服务于开发者。

结论

DeepSWE 的发布是 AI Agent 领域的一个重要里程碑。它不仅展示了 AI Agent 技术的强大潜力，也为开发者提供了一个宝贵的学习和实验平台。我们期待 DeepSWE 在未来的发展中能够取得更大的突破，为软件工程领域带来更多的创新。