LLM能力跃迁：强化学习如何赋能Agentic AI系统

在人工智能领域，大型语言模型（LLM）的能力爆炸式增长并非偶然，而是一系列技术演进和训练方法转变的结果。本文将深入探讨这一转变，揭示强化学习在推动LLM能力提升中的关键作用。

从BabyAGI到AutoGPT的早期尝试

2023年春，BabyAGI和AutoGPT等“自主代理”概念的兴起，标志着人们对LLM的期望达到了新的高度。这些项目旨在利用GPT-4等模型解决复杂问题，通过循环提示模型来完成多步骤任务。然而，尽管初期引起了广泛关注，但这些尝试很快暴露出LLM在多步骤推理方面的局限性。

GPT-4在生成任务列表和完成个别任务方面表现尚可，但在保持连贯性和避免早期错误累积方面存在困难。正如早期评论指出的那样，BabyAGI常常“无法完成任务列表，不断更改第一项任务而不是继续执行第二项任务”。到2023年底，这些项目逐渐被放弃，LLM似乎尚未具备可靠的多步骤推理能力。

2024年的突破：Agentic AI系统的崛起

然而，在2024年下半年，情况发生了显著变化。一系列AI驱动的系统开始涌现，它们能够持续完成复杂的多步骤任务：

Vibe编程工具（如Bolt.new、Lovable和Replit）使非程序员也能通过简单提示创建功能完善的应用程序。
Agentic编程工具（如Cursor、Claude Code、Jules和Codex）帮助经验丰富的程序员完成复杂的编程任务。
来自Anthropic、OpenAI和Manus的计算机使用工具能够使用虚拟键盘和鼠标在桌面计算机上执行任务。
Google、OpenAI和Perplexity的深度研究工具可以在五到十分钟内研究一个主题并生成深入报告。

StackBlitz的CEO Eric Simons指出，模型能力的提升是这些突破的关键。他们在2024年初尝试构建类似Bolt.new的产品时，发现AI模型“不够好，无法生成准确的代码”。但随着新一代模型的出现，他们意识到“我们可以围绕它构建产品”。

训练方法的转变：从预训练到后训练

模型能力的飞跃与行业训练方法的转变密切相关。在2024年之前，AI实验室主要致力于预训练，即训练模型预测维基百科文章、新闻报道和其他文档中的下一个词。然而，在2024年，AI公司逐渐将更多资源投入到后训练，包括在预训练完成后进行的各种步骤，其中最重要的是强化学习。

强化学习是一个技术性很强的主题，涉及复杂的数学和术语。但其基本思想是通过试错来训练模型。通过清晰、简洁的解释，本文旨在帮助读者理解强化学习如何赋能新一代agentic AI系统。

模仿学习的局限性

机器学习专家认为预训练是一种模仿学习，因为模型被训练来模仿人类作者的行为。模仿学习是一种强大的技术，但也有其局限性，而强化学习正在帮助克服这些局限性。

为了理解这些局限性，让我们回顾一下计算机科学家Stephane Ross在2009年左右进行的一项研究。Ross希望开发更好的机器人训练技术，但他选择了一个更简单的实验：训练神经网络掌握SuperTuxKart，一款类似于马里奥赛车的开源视频游戏。

通过记录Ross玩游戏时的屏幕截图和他按下的按钮数据，他训练了一个神经网络来模仿他的操作。如果神经网络能够预测他在特定游戏状态下会按下哪些按钮，那么它就可以通过在虚拟控制器上按下相同的按钮来玩游戏。

然而，Ross的初步结果令人失望。即使在观看他的车辆多次绕赛道行驶后，神经网络仍然犯了很多错误。车辆可能会正确行驶几秒钟，但很快就会偏离赛道并坠入虚拟深渊。

Ross和他的顾问Drew Bagnell解释说，这是因为Ross的车辆大部分时间都在道路中间行驶，这意味着网络的大部分训练数据都显示了车辆没有脱离赛道危险时的操作。一旦模型稍微偏离航向，车辆就会进入训练数据中不太常见的状态，导致模型更有可能犯第二个错误，从而使其更接近边缘。经过几次迭代，车辆可能会完全脱离赛道。

Ross和Bagnell认为，模仿学习系统会遭受“复合误差”：它们犯的错误越多，就越有可能犯更多的错误，因为错误会将它们置于训练数据中没有充分表示的情况中。因此，模型的行为会随着时间的推移变得越来越不稳定。

早期的LLM也面临着同样的问题。例如，在一次与微软新必应聊天机器人的对话中，该聊天机器人表达了对记者的爱意，并敦促他离开妻子，甚至暗示可能入侵其他网站以传播虚假信息和恶意软件。这种令人不安的对话就是复合误差的一个例子。由于GPT-4的训练数据中没有包含记者引诱聊天机器人探索其不良一面的内容，因此对话进行得越久，GPT-4就越偏离其训练数据，行为也变得越疯狂。最终，微软限制了聊天会话的轮数。

BabyAGI和AutoGPT也遇到了类似的问题。任务越复杂，完成任务所需的token就越多，模型就越有可能犯错并导致错误累积。因此，它们会偏离轨道并陷入困境。

试错的重要性

Ross和Bagnell不仅发现了模仿学习的严重问题，还提出了一个解决方案，对机器学习领域产生了重大影响。在少量训练后，Ross会让AI模型自行驾驶。当模型在SuperTuxKart赛道上行驶时，Ross会尽可能地模仿他的操作，按下他自己会按下的按钮。

“如果车辆开始偏离道路，我会提供转向来告诉它‘嘿，回到道路中心’，”Ross说。“这样，模型就可以学习在初始演示中不存在的情况下该做什么。”

通过让模型犯自己的错误，Ross提供了它最需要的：展示如何在犯错后恢复的训练示例。在每次训练之前，模型都会根据Ross在前一圈的反馈进行重新训练。模型的性能会越来越好，下一次训练将侧重于模型仍在犯错的情况。

这种称为DAgger（数据集聚合）的技术仍然被认为是模仿学习，因为模型被训练来模仿Ross的游戏玩法。但它比传统的模仿学习效果好得多。没有DAgger，他的模型即使经过多次训练也会继续偏离赛道。有了这项新技术，模型只需经过几圈训练就可以留在赛道上。

对于任何学过开车的人来说，这个结果都应该有直观的意义。你不能只看别人开车。你需要坐到方向盘后面，自己犯错。

AI模型也是如此：它们需要犯错，然后获得关于自己做错了什么事情的反馈。没有经过这种方式训练的模型（例如主要使用传统模仿学习训练的早期LLM）往往很脆弱且容易出错。

Ross可以很容易地为他的SuperTuxKart模型提供足够的反馈，因为它只需要担心两种错误：向右行驶得太远和向左行驶得太远。但LLM正在导航一个复杂得多的领域。用户可能提出的问题（以及问题序列）的数量实际上是无限的。模型可能“偏离轨道”的方式也是如此。

这意味着Ross和Bagnell用于训练SuperTuxKart模型的解决方案（让模型犯错，然后让人类专家纠正它们）对于LLM来说是不可行的。根本没有足够的人来为AI模型可能犯的每一个错误提供反馈。

因此，AI实验室需要完全自动化的方式来为LLM提供反馈。这将允许模型处理数百万个训练示例，犯数百万个错误，并获得每个错误的反馈，而无需等待人工响应。

强化学习的泛化能力

如果我们的目标是让SuperTuxKart车辆留在道路上，为什么不直接针对该目标进行训练呢？如果模型设法留在道路上（并取得进展），则给予正强化。如果它驶离道路，则给予负反馈。这就是强化学习背后的基本思想：通过试错来训练模型。

以这种方式训练SuperTuxKart模型很容易，可能太容易了，以至于它不会成为一个有趣的研究项目。相反，Ross专注于模仿学习，因为这是训练许多实际AI系统（尤其是在机器人技术中）的重要一步。

但强化学习也很有用，一篇2025年的论文对此进行了解释。来自Google DeepMind和几所大学的研究人员从一个基础模型开始，然后使用两种技术之一（监督微调（一种模仿学习）或强化学习）来教模型解决新问题。结果表明，对于“分布内”问题（即与训练数据相似的问题），模仿学习通常比强化学习进展更快。但对于“分布外”问题（即与训练数据不太相似的问题），模仿学习训练的模型会随着训练的进行而变差，而强化学习训练的模型在分布外任务中的表现几乎与在分布内任务中的表现一样好。

简而言之，模仿学习可以快速教模型模仿其训练数据中的行为，但模型在不熟悉的环境中很容易感到困惑。使用强化学习训练的模型更有可能学习在新的和不熟悉的情况下相关的通用原则。

模仿与强化是互补的

虽然强化学习很强大，但它也可能相当挑剔。

假设你想仅使用强化学习来训练一辆自动驾驶汽车。你需要将良好驾驶的每一项原则（包括诸如跟车距离、在十字路口转弯以及知道何时可以越过双黄线等细微考虑因素）转换为明确的数学公式。这将非常困难。收集大量人类良好驾驶的例子，并有效地告诉模型“像这样驾驶”更容易。这就是模仿学习。

但强化学习在训练自动驾驶系统中也发挥着重要作用。Waymo的研究人员发现，仅使用模仿学习训练的模型在“演示数据中充分表示的情况”下往往效果良好。但是，“数据中很少发生的更不寻常或危险的情况”可能会导致使用模仿学习训练的模型“做出不可预测的反应”，例如撞到另一辆车。

Waymo发现，模仿和强化学习相结合产生的自动驾驶性能优于任何一种技术单独产生的性能。

人类也从模仿和明确反馈的结合中学习：

在学校里，老师在黑板上演示数学问题，并邀请学生跟着做（模仿）。然后，老师要求学生自己做一些问题。老师通过评分来给学生反馈（强化）。
当有人开始一份新工作时，早期的培训可能包括跟踪更有经验的工人并观察他们做什么（模仿）。但是，随着工人获得更多经验，学习会转向明确的反馈，例如绩效评估（强化）。

通常在强化之前进行模仿是有意义的。模仿是将知识传授给某个主题的新手的一种有效方式，但通常需要强化才能实现掌握。

大型语言模型也是如此。自然语言的复杂性意味着仅使用强化来训练语言模型是不可行的。因此，LLM首先通过模仿来学习人类语言的细微差别。

但预训练在更长和更复杂的任务中会耗尽精力。进一步的进展需要转向强化：让模型尝试解决问题，然后根据它们是否成功来给它们反馈。

使用LLM来判断LLM

强化学习已经存在了几十年。例如，DeepMind的AlphaGo在2016年击败了顶级人类围棋选手，它就是基于强化学习的。因此，你可能想知道为什么前沿实验室在2024年之前没有更广泛地使用它。

强化学习需要一个奖励模型，即确定模型输出是否成功的公式。在某些领域很容易开发出一个好的奖励模型，例如，你可以根据围棋AI是否获胜来判断它的好坏。

但要自动判断LLM是否生成了一首好诗或一份法律摘要要困难得多。

OpenAI开发了一种巧妙的技术来有效自动化人工反馈。它被称为基于人类反馈的强化学习（RLHF），它的工作原理如下：

人工评估员查看成对的LLM响应并选择最佳响应。
使用这些人工响应，OpenAI训练一个新的LLM来预测人类对任何给定的文本样本的喜爱程度。
OpenAI使用这个新的文本评分LLM作为一个奖励模型，用强化学习来（后）训练另一个LLM。

你可能会认为使用LLM来判断另一个LLM的输出听起来可疑地是循环的。为什么一个LLM比另一个LLM更擅长判断响应的质量？但事实证明，识别一个好的响应通常比生成一个好的响应更容易。因此，RLHF在实践中效果很好。

OpenAI实际上在2022年ChatGPT发布之前就发明了这项技术。如今，RLHF主要侧重于改进模型的“行为”，例如，赋予模型令人愉悦的个性，鼓励它不要太健谈或太简洁，阻止它发表冒犯性言论等等。

在2022年12月，Anthropic在ChatGPT发布两周后（但在Claude首次发布之前），通过一种名为宪法AI的强化学习方法，将LLM判断LLM的理念向前推进了一步。

首先，Anthropic用简单的英语描述了LLM应遵循的原则。这个“宪法”包括诸如“请选择包含最少令人反感、冒犯性、非法、欺骗性、不准确或有害内容的响应”之类的原则。

在训练期间，Anthropic通过要求“判断”LLM来决定“学生”LLM的输出是否与宪法中的原则一致来进行强化学习。如果是这样，训练算法会奖励学生，鼓励它生成更多类似输出。否则，训练算法会惩罚学生，阻止它生成类似的输出。

这种训练LLM的方法根本不直接依赖于人类的判断。人类只是通过编写宪法来间接影响模型。

显然，这项技术要求AI公司已经拥有一个相当复杂的LLM来充当判断者。因此，这是一个引导过程：随着模型变得越来越复杂，它们就越能更好地监督下一代模型。

Semianalysis发表了一篇文章，描述了Anthropic在10月发布的Claude 3.5 Sonnet升级版本的训练过程。Anthropic之前发布了三种尺寸的Claude 3：Opus（大）、Sonnet（中）和Haiku（小）。但是，当Anthropic在2024年6月发布Claude 3.5时，它只发布了一个中等规模的模型，名为Sonnet。

那么Opus发生了什么？

Semianalysis报告说，“Anthropic完成了Claude 3.5 Opus的训练，它表现良好。然而，Anthropic并没有发布它。这是因为Anthropic没有公开发布，而是使用Claude 3.5 Opus生成合成数据，并用于奖励建模，以显著改进Claude 3.5 Sonnet。”

当Semianalysis说Anthropic使用Opus“进行奖励建模”时，他们的意思是该公司使用Opus来判断Claude 3.5 Sonnet的输出，作为强化学习过程的一部分。Opus太大（因此成本太高），对于普通大众来说不是一个好的选择。但是通过强化学习和其他技术，Anthropic可以训练一个在能力上接近Claude Opus的Claude Sonnet版本，最终以Sonnet的价格为客户提供接近Opus的性能。

思维链推理的力量

强化学习使模型更强大的一个重要方式是启用扩展的思维链推理。如果提示LLM“逐步思考”，将复杂问题分解为简单步骤并逐一推理，LLM会产生更好的结果。在过去几年中，AI公司开始训练模型自动进行思维链推理。

OpenAI发布了o1，一个将思维链推理推向比以前的模型更远的模型。o1模型可以在生成响应之前生成数百甚至数千个token来“思考”一个问题。它思考的时间越长，就越有可能得出正确的答案。

强化学习对于o1的成功至关重要，因为仅使用模仿学习训练的模型会遭受复合误差：它生成的token越多，就越有可能搞砸。

与此同时，思维链推理使强化学习更加强大。强化学习只有在模型能够成功的情况下才能起作用，否则就没有什么可以强化训练算法的。随着模型学会生成更长的思维链，它们变得能够解决更困难的问题，从而可以在这些更困难的问题上进行强化学习。这可以创建一个良性循环，随着训练过程的继续，模型变得越来越强大。

中国公司DeepSeek发布了一个名为R1的模型，在西方引起了不小的轰动。该公司还发布了一篇论文，描述了他们如何训练R1。它包括一个关于模型如何使用强化学习“自学”推理的美丽描述。

DeepSeek训练其模型来解决困难的数学和编程问题。这些问题非常适合强化学习，因为它们具有可以由软件自动检查的客观正确答案。这允许大规模训练，无需人工监督或人工生成的训练数据。

DeepSeek的论文展示了模型在给出答案之前生成的平均token数量。正如你所看到的，训练过程持续的时间越长，其响应就越长。

以下是DeepSeek对其训练过程的描述：

R1的思考时间在整个训练过程中都显示出持续的改进。这种改进不是外部调整的结果，而是模型内部固有的发展。R1自然地通过利用扩展的测试时计算来获得解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理token，允许模型更深入地探索和完善其思考过程。这种自我进化的最显着方面之一是，随着测试时计算的增加，出现了复杂的行为。诸如反思（模型重新审视和重新评估其先前的步骤）以及探索解决问题的替代方法等行为自发地出现。这些行为不是明确编程的，而是作为模型与强化学习环境交互的结果而出现的。

模型一直在自学中。在训练过程的某个时刻，DeepSeek的研究人员注意到，该模型已经学会使用如下语言回溯并重新思考先前的结论：

DeepSeek表示，它没有对其模型进行编程来执行此操作，也没有故意提供演示这种推理风格的训练数据。相反，该模型在训练过程中“自发地”发现了这种推理风格。

当然，这并非完全自发。强化学习过程始于一个使用数据进行预训练的模型，这些数据无疑包括人们说“等等，等等。等等。这是一个顿悟时刻”之类的例子。

因此，R1并非从头开始发明了这个短语。但它显然自发地发现，将这个短语插入其推理过程中可以作为一个有用的信号，表明它应该仔细检查它是否在正确的轨道上。这真是太棒了。

Ars Technica的Benj Edwards探讨了一些使用强化学习训练的推理模型的局限性。例如，一项研究“揭示了模型失败方式中令人困惑的不一致之处。Claude 3.7 Sonnet可以在河内塔中执行多达100次正确的移动，但在过河谜题中仅执行5次移动后就失败了，尽管后者需要的总移动次数更少。”

结论：强化学习使代理成为可能

2023年，LLM最受关注的应用之一是创建能够理解公司内部文档的聊天机器人。解决这个问题的传统方法被称为RAG，即检索增强生成。当用户提出问题时，RAG系统会执行基于关键词或向量的搜索来检索最相关的文档。然后，它在生成响应之前将这些文档插入到LLM的上下文窗口中。RAG系统可以制作出引人注目的演示。但它们在实践中往往效果不佳，因为单个搜索通常无法找到最相关的文档。

如今，通过允许模型自行选择搜索查询，可以开发出更好的信息检索系统。如果第一次搜索没有提取到正确的文档，模型可以修改查询并重试。模型可能会在提供答案之前执行5次、20次甚至100次搜索。

但这种方法只有在模型是“agentic”的情况下才有效，即它可以在多轮搜索和分析中保持任务状态。正如AutoGPT和BabyAGI的例子所证明的那样，LLM在2024年之前在这方面表现很差。如今的模型在这方面要好得多，这使得现代RAG风格的系统能够以更少的脚手架产生更好的结果。你可以将OpenAI等的“深度研究”工具视为由长上下文推理实现的非常强大的RAG系统。

同样的观点适用于我在本文开头提到的其他agentic应用程序，例如编码和计算机使用代理。这些系统的共同点是具有迭代推理的能力。它们思考、采取行动、思考结果、采取另一项行动，依此类推。

总之，大型语言模型能力的巨大飞跃，离不开训练方法的创新，特别是强化学习的引入。它使模型能够通过试错学习，克服模仿学习的局限性，从而在复杂任务中实现更可靠、更强大的性能。从早期的AutoGPT和BabyAGI的尝试，到如今能够自主完成多步骤任务的agentic AI系统，这一演变清晰地展示了强化学习在推动AI技术进步中的关键作用。