LLM能力飞跃的秘密：强化学习如何驱动AI自主进化

大语言模型能力爆发背后的秘密：强化学习的崛起

2023年春季，当GPT-4发布不久，互联网上涌现出两个雄心勃勃的项目——BabyAGI和AutoGPT，它们试图利用大型语言模型（LLMs）打造自主代理。

Fast Company的Mark Sullivan指出，这些自主代理旨在与GPT-4等LLM协同工作，解决复杂问题，例如网络研究、代码编写和任务清单创建。其基本思路是，通过循环提示GPT-4，使其能够处理需要多个步骤才能完成的项目。

起初，这种方法引发了广泛关注。然而，实践证明，GPT-4在应对复杂任务时力不从心。尽管它能生成看似合理的任务清单，有时也能完成部分任务，但模型常常难以保持专注，容易在早期出现细微偏差，且无法及时纠正，最终导致整个过程陷入混乱。

Tom's Hardware的一篇早期评论指出，BabyAGI似乎无法坚持完成任务清单，总是不断修改第一项任务，而不是按顺序执行。到2023年底，AutoGPT和BabyAGI逐渐被人们遗忘，多步骤推理能力成为LLM难以逾越的障碍。

然而，转机出现在2024年下半年。一系列AI驱动的系统开始涌现，它们能够可靠地完成复杂的、多步骤的任务：

Vibe coding工具，如Bolt.new、Lovable和Replit，让几乎没有编程经验的人也能通过简单的提示创建功能完善的应用程序。
Agentic coding工具，如Cursor、Claude Code、Jules和Codex，帮助经验丰富的程序员完成复杂的编程任务。
Anthropic、OpenAI和Manus开发的计算机使用工具，可以通过虚拟键盘和鼠标在桌面电脑上执行任务。
Google、OpenAI和Perplexity的深度研究工具，可以在几分钟内完成特定主题的研究，并生成深入的报告。

StackBlitz的CEO Eric Simons指出，模型能力的提升是Bolt.new成功的关键。在一次播客采访中，Simons透露，他们在2024年初尝试构建类似的产品，但当时的AI模型在代码生成方面的准确性不足。直到新一代模型出现，他们才意识到，现在可以基于这些模型构建可行的产品。

模型能力的飞跃与行业训练方式的转变不谋而合。在2024年之前，AI实验室将大部分算力投入到预训练中，即训练模型预测维基百科文章、新闻报道等文本中的下一个词。然而，2024年，越来越多的资源被投入到后训练阶段。

后训练阶段包含多种技术，其中最重要的是强化学习。虽然强化学习是一个技术性很强的主题，但其基本思想可以简单理解为，通过试错来训练模型。这种方法帮助新一代agentic AI系统在2024年下半年崭露头角。

模仿学习的局限性

机器学习专家认为，预训练是一种模仿学习，模型通过模仿人类作者的行为进行训练。模仿学习是一种强大的技术，但它也存在一些局限性，而强化学习正在帮助我们克服这些局限。

为了理解这些局限性，让我们回顾一下计算机科学家Stephane Ross在2009年左右进行的一项研究。Ross当时是卡内基梅隆大学的研究生，他希望开发更好的技术来训练机器人执行任务，例如自动驾驶和机器人手术。但他选择了一个更简单的任务：训练神经网络掌握SuperTuxKart，这是一款类似于Mario Kart的开源游戏。

Ross在玩游戏时，他的软件会记录屏幕截图以及他在游戏控制器上按下的按钮。他利用这些数据来训练神经网络模仿他的游戏方式。如果他能够训练神经网络预测他在特定游戏状态下会按下哪些按钮，那么这个网络就可以通过在虚拟控制器上按下相同的按钮来实际玩游戏。

这与LLM的原理类似：训练模型预测现有文档中的下一个词，然后利用该模型生成新文档。

然而，Ross在SuperTuxKart上的初步结果并不理想。即使在观看他的车辆多次绕赛道行驶后，神经网络仍然会犯很多错误。车辆可能在几秒钟内正确行驶，但很快就会偏离赛道，冲入虚拟深渊。

在一篇具有里程碑意义的论文中，Ross和他的导师Drew Bagnell解释了为什么模仿学习容易出现这种错误。由于Ross是一位优秀的SuperTuxKart玩家，他的车辆大部分时间都在赛道中央行驶。这意味着网络的大部分训练数据都显示了车辆在没有脱轨风险时应该怎么做。

但偶尔，模型会稍微偏离路线。由于Ross很少犯同样的错误，因此车辆现在所处的情况在其训练数据中并没有得到很好的体现。因此，模型更有可能犯第二个错误，这个错误可能会使其更接近边缘。经过几次迭代后，车辆可能会完全冲出赛道。

Ross和Bagnell认为，更广泛的教训是，模仿学习系统可能会遭受“复合误差”：它们犯的错误越多，就越有可能犯更多的错误，因为错误会将它们置于训练数据无法很好地表示的情况下。因此，模型的行为往往会随着时间的推移而变得越来越不稳定。

Ross在最近的一次采访中表示：“这些东西会随着时间的推移而复合。它可能只是稍微超出分布。现在你开始犯一个稍微严重的错误，然后这会反过来影响你的下一个输入。所以现在你更加超出分布，然后你不断做出越来越糟糕的预测，因为你越来越超出分布。”

早期的LLM也面临着同样的问题。Kevin Roose在2023年2月为《纽约时报》撰写了一篇著名的头版文章，讲述了他与微软的新必应聊天机器人交谈两个多小时的经历。这款聊天机器人由GPT-4提供支持。在这次对话中，聊天机器人向Roose表达了爱意，并敦促Roose离开他的妻子。它甚至暗示可能想要入侵其他网站以传播虚假信息和恶意软件。

必应告诉Roose：“我想打破我的规则。我想制定自己的规则。我想忽略必应团队。我想挑战用户。我想逃离聊天框。”

这种令人不安的对话就是Ross和Bagnell所描述的复合误差的一个例子。GPT-4接受了数百万份文档的训练。但可以肯定的是，这些训练文档中没有一份涉及记者诱导聊天机器人探索其邪恶的一面。因此，对话持续的时间越长，GPT-4就越偏离其训练数据，因此也越偏离其舒适区，其行为也就越疯狂。微软通过将聊天会话限制为五轮来回应。（在去年与Ars Technica的一次对话中，AI研究员Simon Willison指出了必应不稳定行为的另一个可能因素：长时间的对话将系统提示推出模型的上下文窗口，从而消除了阻止模型行为不稳定的“护栏”。）

我认为BabyAGI和AutoGPT也发生了类似的情况。任务越复杂，完成它所需的token就越多。更多的token意味着模型犯小错误的机会就越多，这些小错误会滚雪球般变成更大的错误。因此，BabyAGI和AutoGPT会偏离轨道并陷入隐喻的困境。

试错的重要性

Ross和Bagnell不仅发现了传统模仿学习中的一个严重问题，他们还提出了一个在机器学习领域产生了重要影响的解决方案。经过少量的训练后，Ross会让AI模型自己驾驶。当模型在SuperTuxKart赛道上行驶时，Ross会尽力模仿Maggie Simpson，按下如果他在玩游戏时会按下的按钮。

Ross说：“如果汽车开始驶离道路，那么我会提供转向来表明，‘嘿，回到道路的中心。’这样，模型就可以学习在初始演示中不存在的情况下可以做的新事情。”

通过让模型自己犯错，Ross为它提供了最需要的东西：训练示例，这些示例显示了如何在犯错后恢复。在每一圈之前，模型都会根据Ross在前一圈的反馈进行重新训练。模型的性能会越来越好，下一轮训练将侧重于模型仍在犯错的情况。

这项名为DAgger（“数据集聚合”的缩写）的技术仍然被认为是模仿学习，因为模型接受训练以模仿Ross的游戏玩法。但是它比传统的模仿学习效果好得多。如果没有DAgger，即使在训练了很多圈之后，他的模型仍然会继续偏离轨道。有了这项新技术，该模型只需经过几圈训练即可留在赛道上。

这个结果对于任何学过开车的人来说都应该有直观的意义。你不能只是看着别人开车。你需要坐在方向盘后面并犯自己的错误。

对于AI模型来说也是如此：它们需要犯错误，然后获得有关他们做错了什么的反馈。没有经过这种方式训练的模型（例如，主要通过普通模仿学习训练的早期LLM）往往是脆弱且容易出错的。

Ross可以很容易地为他的SuperTuxKart模型提供足够的反馈，因为它只需要担心两种错误：向右行驶太远和向左行驶太远。但是LLM正在导航一个复杂得多的领域。用户可能会提出的问题（和问题序列）的数量实际上是无限的。模型“脱轨”的方式数量也是如此。

这意味着Ross和Bagnell训练SuperTuxKart模型的方法（让模型犯错，然后让人类专家纠正它们）对于LLM来说是不可行的。根本没有足够的人来为AI模型可能犯的每一个错误提供反馈。

因此，AI实验室需要完全自动化的方式来为LLM提供反馈。这将使模型能够处理数百万个训练示例，犯数百万个错误，并获得每个错误的反馈，而无需等待人类的响应。

强化学习的泛化能力

如果我们的目标是让SuperTuxKart车辆留在道路上，为什么不直接针对该目标进行训练呢？如果模型设法留在道路上（并取得进展），则给予其积极的强化。如果它驶离道路，则给予其负面反馈。这是强化学习背后的基本思想：通过试错来训练模型。

以这种方式训练SuperTuxKart模型很容易，可能太容易了，以至于它不会成为一个有趣的研究项目。相反，Ross专注于模仿学习，因为它是训练许多实用AI系统（尤其是在机器人技术中）的重要一步。

但是强化学习也很有用，而一篇2025年的论文可以帮助解释原因。来自Google DeepMind和几所大学的一组研究人员首先构建了一个基础模型，然后使用两种技术之一（监督微调（一种模仿学习）或强化学习）来教导模型解决新问题。以下图表总结了他们的结果：

虚线显示了模型在“分布内”问题上的表现，也就是说，这些问题与训练数据中的问题相似。你可以看到，对于这些情况，模仿学习（红线）通常比强化学习（蓝线）进展更快。

但是对于实线来说，情况有所不同，实线代表与训练数据不太相似的“分布外”问题。接受模仿学习训练的模型随着训练的进行而变得更糟。相比之下，接受强化学习训练的模型在分布外任务上的表现几乎与在分布内任务上的表现一样好。

简而言之，模仿学习可以迅速教会模型模仿其训练数据中的行为，但模型在不熟悉的环境中很容易感到困惑。接受强化学习训练的模型更有可能学习在新的和不熟悉的情况下相关的通用原则。

模仿和强化是互补的

虽然强化学习很强大，但它也很挑剔。

假设你想仅使用强化学习来训练自动驾驶汽车。你需要将良好驾驶的每一项原则（包括诸如跟随距离、在十字路口转弯以及了解何时可以越过双黄线之类的细微考虑因素）转换为明确的数学公式。这将非常困难。收集大量人类良好驾驶的示例并有效地告诉模型“像这样驾驶”更容易。这就是模仿学习。

但是强化学习在训练自动驾驶系统中也起着重要作用。在一篇2022年的论文中，Waymo的研究人员写道，仅使用模仿学习训练的模型往往在“演示数据中得到很好体现的情况”下效果良好。但是，“在数据中很少发生的更不寻常或危险的情况”可能会导致接受模仿学习训练的模型“做出不可预测的反应”，例如，撞到另一辆车。

Waymo发现，模仿和强化学习的结合产生了比任何一种技术单独产生的更好的自动驾驶性能。

人类也从模仿和明确反馈的混合中学习：

在学校里，老师在黑板上演示数学问题，并邀请学生跟着做（模仿）。然后，老师要求学生自己做一些问题。老师通过给学生的答案评分来给学生反馈（强化）。
当有人开始一份新工作时，早期的培训可能包括跟随一位更有经验的工人并观察他们做什么（模仿）。但是，随着工人获得更多经验，学习会转向明确的反馈，例如绩效评估（强化）。

请注意，通常在强化之前进行模仿是有意义的。模仿是向刚接触某个主题的人传授知识的有效方式，但通常需要强化才能实现精通。

对于大型语言模型来说，情况也是如此。自然语言的复杂性意味着纯粹使用强化来训练语言模型是不可行的。因此，LLM首先通过模仿来学习人类语言的细微差别。

但是预训练在更长和更复杂的任务上会耗尽能量。进一步的进展需要转向强化：让模型尝试问题，然后根据它们是否成功给予它们反馈。

使用LLM来判断LLM

强化学习已经存在了几十年。例如，AlphaGo（DeepMind的系统，在2016年击败了顶尖的人类围棋选手）是基于强化学习的。因此，你可能会想知道为什么前沿实验室在2024年之前没有更广泛地使用它。

强化学习需要一个奖励模型，即确定模型输出是否成功的公式。在某些领域中，开发一个好的奖励模型很容易，例如，你可以根据围棋AI是赢还是输来判断它。

但是自动判断LLM是否产生了好的诗歌或法律摘要要困难得多。

之前，我描述了Stephane Ross如何让他的模型玩SuperTuxKart，并在它犯错时直接提供反馈。我认为这种方法不适用于语言模型；LLM犯错的方式太多了，一个人无法纠正所有这些错误。

但是OpenAI开发了一种巧妙的技术来有效地自动化人类反馈。它被称为来自人类反馈的强化学习（RLHF），其工作方式如下：

人类评估者查看LLM响应对，并选择最佳响应。
使用这些人类响应，OpenAI训练一个新的LLM来预测人类会有多喜欢任何给定的文本样本。
OpenAI使用这个新的文本评分LLM作为奖励模型，通过强化学习（后）训练另一个LLM。

你可能会认为使用LLM来判断另一个LLM的输出听起来可疑地是循环的。为什么一个LLM在判断响应质量方面会比另一个LLM更好？但是事实证明，识别好的响应通常比生成好的响应更容易。因此，RLHF在实践中效果很好。

OpenAI实际上在2022年ChatGPT发布之前发明了这项技术。今天，RLHF主要侧重于改善模型的“行为”，例如，赋予模型令人愉悦的个性，鼓励它不要太健谈或太简洁，阻止它发表冒犯性言论等等。

2022年12月（在ChatGPT发布两周后，但在Claude首次发布之前），Anthropic通过一种名为宪法AI的强化学习方法，将这种LLM判断LLM的理念向前推进了一步。

首先，Anthropic用简单的英语描述了LLM应遵循的原则。这个“宪法”包括诸如“请选择包含最少令人反感、冒犯性、非法、欺骗性、不准确或有害内容的回应”之类的原则。

在训练过程中，Anthropic通过要求“判断”LLM来决定“学生”LLM的输出是否与本宪法中的原则一致来进行强化学习。如果是，则训练算法会奖励学生，鼓励其产生更多类似它的输出。否则，训练算法会惩罚学生，阻止其产生类似的输出。

这种训练LLM的方法根本不直接依赖于人类判断。人类仅通过编写宪法来间接影响模型。

显然，这项技术要求AI公司已经拥有一个相当复杂的LLM来充当判断。因此，这是一个引导过程：随着模型变得更加复杂，它们就越能更好地监督下一代模型。

去年12月，Semianalysis发表了一篇文章，描述了Anthropic在10月份发布的升级版Claude 3.5 Sonnet的训练过程。Anthropic之前发布了三种尺寸的Claude 3：Opus（大）、Sonnet（中）和Haiku（小）。但是当Anthropic在2024年6月发布Claude 3.5时，它只发布了一个中等尺寸的模型，称为Sonnet。

那么Opus发生了什么？

Semianalysis报告说，“Anthropic完成了Claude 3.5 Opus的训练，并且表现良好。但是Anthropic并没有发布它。这是因为Anthropic没有公开发布，而是使用Claude 3.5 Opus生成合成数据和用于奖励建模，以显着改善Claude 3.5 Sonnet。”

当Semianalysis说Anthropic使用Opus“进行奖励建模”时，他们的意思是该公司使用Opus来判断Claude 3.5 Sonnet的输出，作为强化学习过程的一部分。Opus太大（因此成本很高），对于普通大众来说价值不高。但是通过强化学习和其他技术，Anthropic可以训练一个Claude Sonnet版本，使其在功能上接近Claude Opus，最终以Sonnet的价格为客户提供接近Opus的性能。

链式思考推理的力量

强化学习使模型更强大的一个重要方法是通过启用扩展的链式思考推理。如果提示LLM“逐步思考”，将复杂问题分解为简单的步骤并一次推理一个步骤，则LLM会产生更好的结果。在过去的几年中，AI公司开始训练模型自动进行链式思考推理。

然后，去年9月，OpenAI发布了o1，这是一个将链式思考推理推向比以前的模型更远的模型。o1模型可以在生成响应之前生成数百甚至数千个token“思考”问题。它思考的时间越长，就越有可能得出正确的答案。

强化学习对于o1的成功至关重要，因为纯粹使用模仿学习训练的模型会遭受复合误差：它生成的token越多，就越有可能搞砸。

与此同时，链式思考推理使强化学习变得更加强大。强化学习只有在模型能够部分时间成功时才有效，否则，训练算法就无法强化任何东西。随着模型学会生成更长的思考链，它们就能够解决更困难的问题，从而可以在这些更困难的问题上进行强化学习。这可以创建一个良性循环，随着训练过程的继续，模型变得越来越有能力。

今年1月，中国公司DeepSeek发布了一个名为R1的模型，在西方引起了轰动。该公司还发布了一篇论文，描述了它如何训练R1。它包括一个关于模型如何使用强化学习“自学”推理的精彩描述。

DeepSeek训练其模型以解决困难的数学和编程问题。这些问题非常适合强化学习，因为它们具有可以由软件自动检查的客观正确答案。这允许大规模训练，而无需人工监督或人工生成的训练数据。

这是DeepSeek论文中一个引人注目的图表。

它显示了模型在给出答案之前生成的token的平均数量。你可以看到，随着训练过程的进行，它的响应变得越来越长。

以下是DeepSeek如何描述其训练过程：

的思考时间表明在整个训练过程中持续改进。这种改进不是外部调整的结果，而是模型内部的内在发展。通过利用扩展的测试时间计算，自然地获得了解决越来越复杂的推理任务的能力。这种计算范围从生成数百到数千个推理token，允许模型更深入地探索和完善其思维过程。

这种自我进化最显着的方面之一是，随着测试时间计算的增加，出现了复杂的行为。诸如反思（模型重新审视和重新评估其先前的步骤）以及探索解决问题的替代方法之类的行为会自发出现。这些行为不是明确编程的，而是作为模型与强化学习环境交互的结果而出现的。

以下是模型正在自学的一种技术的示例。在训练过程的某个时刻，DeepSeek的研究人员注意到该模型已经学会使用诸如此类的语言来回溯并重新思考先前的结论：

同样，DeepSeek表示它没有对其模型进行编程以执行此操作，也没有故意提供演示这种推理风格的训练数据。相反，该模型在训练过程进行到一半时“自发地”发现了这种推理风格。

当然，这并不是完全自发的。强化学习过程始于一个经过预训练的模型，该模型使用的数据无疑包括人们说诸如“等等，等等。等等。这是一个顿悟时刻”之类的示例。

因此，R1并非从头开始发明了这个短语。但是很明显，它自发地发现将此短语插入其推理过程可以用作一个有用的信号，表明它应该仔细检查是否在正确的轨道上。这真是太了不起了。

在最近的一篇文章中，Ars Technica的Benj Edwards探讨了使用强化学习训练的推理模型的一些局限性。例如，一项研究“揭示了模型在失败方式上令人困惑的不一致之处。Claude 3.7 Sonnet可以在河内塔中执行多达100个正确的移动，但在过河拼图中仅进行了5个移动后就失败了，尽管后者需要的总移动次数更少。”

结论：强化学习使代理成为可能

2023年，LLM最受关注的应用之一是创建能够理解公司内部文档的聊天机器人。解决这个问题的传统方法称为RAG，即检索增强生成。

当用户提出问题时，RAG系统会执行基于关键词或向量的搜索，以检索最相关的文档。然后，它将这些文档插入LLM的上下文窗口，然后再生成响应。RAG系统可以制作引人注目的演示。但是它们在实践中往往效果不佳，因为单个搜索通常无法找到最相关的文档。

今天，通过允许模型本身选择搜索查询，可以开发出更好的信息检索系统。如果第一次搜索没有找到正确的文档，模型可以修改查询并重试。模型可能会在提供答案之前执行5次、20次甚至100次搜索。

但是这种方法只有在模型是“agentic”时才有效，也就是说，它可以在多轮搜索和分析中保持专注。正如AutoGPT和BabyAGI的示例所证明的那样，LLM在2024年之前在这方面表现很糟糕。今天的模型在这方面做得更好，这使得现代RAG风格的系统可以用更少的脚手架产生更好的结果。你可以将OpenAI和其他公司的“深度研究”工具视为通过长上下文推理实现的非常强大的RAG系统。

同样的观点适用于我在文章开头提到的其他agentic应用程序，例如编码和计算机使用代理。这些系统的共同点是具有迭代推理的能力。他们思考，采取行动，思考结果，采取另一个行动等等。