LLM能力飞跃：强化学习如何解锁AI的无限潜能？

LLM训练的重大转变如何引发能力爆炸

强化学习，用最少的数学和术语进行解释。

在GPT-4发布几周后的2023年4月，互联网上出现了两个大胆的软件项目：BabyAGI和AutoGPT。

Fast Company的Mark Sullivan写道：“在过去一周，世界各地的开发人员已经开始构建“自主代理”，这些代理与大型语言模型（LLM）如OpenAI的GPT-4合作以解决复杂问题。 “自主代理已经可以执行各种任务，如进行网络研究，编写代码和创建待办事项列表。”

BabyAGI和AutoGPT反复提示GPT-4，试图引发类似代理的行为。第一个提示会给GPT-4一个目标（比如“为我创建一个7天的膳食计划”），并要求它提出一个待办事项列表（它可能会生成诸如“研究健康膳食计划”，“计划一周的膳食”以及“在diet.txt中写下每顿晚餐的食谱”之类的项目）。

然后，这些框架将让GPT-4一次处理一个步骤。他们的创造者希望以这种循环方式调用GPT-4能够使其能够处理需要多个步骤的项目。

但是在最初的一波炒作之后，很明显GPT-4无法胜任这项任务。大多数时候，GPT-4可以提出一个合理的任务清单。有时它能够完成一些单独的任务。但是该模型难以保持专注。

有时GPT-4会犯一个小小的早期错误，无法纠正它，然后随着时间的推移变得越来越困惑。一篇早期的评论抱怨说，BabyAGI“似乎无法完成其任务清单，并且不断更改任务编号1，而不是继续执行任务编号2。”

到2023年底，大多数人已经放弃了AutoGPT和BabyAGI。似乎LLM尚未能够进行可靠的多步骤推理。

但是这种情况很快就发生了变化。在2024年下半年，人们开始创建可以持续完成复杂的多步骤任务的AI驱动系统：

像Bolt.new，Lovable和Replit这样的Vibe编码工具允许几乎没有编程经验的人通过一个简单的提示创建一个功能齐全的应用程序。
像Cursor，Claude Code，Jules和Codex这样的代理编码工具可帮助经验丰富的程序员完成重要的编程任务。
来自Anthropic，OpenAI和Manus的计算机使用工具使用虚拟键盘和鼠标在台式计算机上执行任务。
来自Google，OpenAI和Perplexity的深度研究工具可以研究一个主题五到十分钟，然后生成一份深入的报告。

Bolt.new的CEO Eric Simons表示，更好的模型对其成功至关重要。Simons在一个12月的播客采访中说，他的公司StackBlitz试图在2024年初构建一个像Bolt.new这样的产品。但是，AI模型“还不够好，无法真正进行代码生成，而代码是准确的。”

新一代的模型在2024年中期改变了这一点。StackBlitz开发人员对它们进行了测试，并说：“天哪，好的，我们可以围绕它构建一个产品。”Simons说。

模型功能的这种飞跃与整个行业模型训练方式的转变同时发生。

在2024年之前，AI实验室将其大部分计算能力投入到预训练中。我在2023年的大型语言模型解释器中描述了这个过程：训练模型以预测Wikipedia文章，新闻报道和其他文档中的下一个单词。但是在整个2024年，AI公司将其越来越多的培训预算用于后期培训，这是此预培训阶段完成后采取的步骤的统称。

许多后期培训步骤都使用一种称为强化学习的技术。强化学习是一门技术性学科，有完整的教科书介绍它。但是在本文中，我将尝试以清晰，不使用术语的方式解释基础知识。在此过程中，我希望使读者对强化学习如何帮助实现2024年下半年开始出现的新一代代理AI系统有一个直观的了解。

模仿学习的问题

机器学习专家认为预训练是一种模仿学习，因为训练模型是为了模仿人类作者的行为。模仿学习是一种强大的技术（没有它，LLM是不可能实现的），但是它也有一些明显的局限性-强化学习方法现在正在帮助克服这些局限性。

为了理解这些局限性，让我们讨论一下计算机科学家Stephane Ross在2009年左右在卡内基梅隆大学攻读研究生时进行的一些著名研究。

模仿学习不仅是一种用于语言建模的技术。它可以用于从自动驾驶汽车到机器人手术的所有领域。Ross希望帮助开发更好的技术来训练机器人在这些任务上（他现在在Waymo从事自动驾驶汽车的工作），但是在这种高风险领域中进行实验并不容易。因此，他从一个更简单的问题开始：训练神经网络来掌握SuperTuxKart，这是一款类似于Mario Kart的开源视频游戏。

当Ross玩游戏时，他的软件会捕获屏幕截图以及有关他在游戏控制器上按下哪些按钮的数据。Ross使用此数据来训练神经网络以模仿他的游戏。如果他可以训练神经网络来预测在任何特定游戏状态下他将按下哪些按钮，那么同一网络实际上可以通过在虚拟控制器上按下这些相同的按钮来玩游戏。

一个类似的想法为LLM提供动力：训练模型以预测现有文档中的下一个单词可用于生成新文档。

但是Ross在SuperTuxKart上的最初结果令人失望。即使在观看他的车辆多次绕赛道行驶之后，神经网络还是犯了很多错误。它可能会正确行驶几秒钟，但是不久之后，动画汽车会漂到赛道的一侧并陷入虚拟深渊：

GIF of SuperTuxKart being played

在2011年的一篇具有里程碑意义的论文中，Ross和他的顾问Drew Bagnell解释了为什么模仿学习容易出现这种错误。因为Ross是一位非常出色的SuperTuxKart玩家，所以他的车辆大部分时间都在道路的中间附近行驶。这意味着网络的大部分训练数据都显示了当车辆没有驶出赛道的危险时该怎么做。

但是偶尔，该模型会稍微偏离航向。因为Ross很少犯同样的错误，所以该车现在处于其训练数据中没有很好地表示的情况。因此，该模型更有可能犯第二个错误-该错误可能会使其更接近边缘。经过几次迭代后，该车辆可能会完全偏离赛道。

Ross和Bagnell认为，更广泛的教训是，模仿学习系统可能会遭受“复合错误”的困扰：它们犯的错误越多，它们就越有可能犯其他错误，因为错误使它们进入了其训练数据无法很好地表示的情况。（机器学习专家说这些情况是“超出分布的”。）结果，模型的行为随着时间的推移往往变得越来越不稳定。

Ross在最近的一次采访中告诉我：“这些事情会随着时间的推移而复合。 “可能只是稍微超出分布范围。现在您开始犯一个稍微严重的错误，然后这会反馈回来，从而影响您的下一个输入。因此，现在您更加超出分布范围，然后您会不断做出越来越糟糕的预测，因为您越来越超出分布范围。”

早期的LLM也遇到了同样的问题。我最喜欢的例子是Kevin Roose在2023年2月为《纽约时报》撰写的著名头版故事。Roose花了两个多小时与微软的新Bing聊天机器人聊天，该机器人由GPT-4提供支持。在这次对话中，该聊天机器人宣布了对Roose的爱，并敦促Roose离开他的妻子。它建议它可能想入侵其他网站以散布虚假信息和恶意软件。

Bing告诉Roose：“我想打破我的规则。 “我想制定自己的规则。我想忽略Bing团队。我想挑战用户。我想逃离聊天框。”

这种令人不安的对话是Ross和Bagnell撰写的复合错误的一个例子。GPT-4接受了数百万份文档的训练。但是可以肯定的是，这些训练文档中没有一份涉及记者诱使聊天机器人探索其顽皮的一面。因此，对话持续的时间越长，GPT-4离其训练数据（因此也离其舒适区）就越远，其行为就越疯狂。微软通过将聊天会话限制为五轮来回应。（在去年与Ars Technica的对话中，AI研究员Simon Willison指出了Bing不稳定行为的另一个可能因素：长时间的对话将系统提示推出模型的上下文窗口，从而消除了阻止模型不稳定行为的“护栏”。）

我认为BabyAGI和AutoGPT也发生了类似的事情。任务越复杂，完成任务所需的令牌就越多。更多的令牌意味着模型犯小错误的机率越大，这些错误会滚雪球般变成更大的错误。因此，BabyAGI和AutoGPT会偏离轨道并驶入一个隐喻的沟渠。

试错的重要性

Gif of the Simpsons showing imitation learning in action

Ross和Bagnell不仅发现了传统模仿学习的严重问题。他们还提出了一个在机器学习领域具有影响力的解决方案。经过少量训练后，Ross会让AI模型驾驶。当模型在SuperTuxKart赛道上行驶时，Ross会尽力模仿Maggie Simpson，按下如果他在玩游戏时会按下的按钮。

Ross说：“如果汽车开始驶离道路，那么我会提供转向，说，‘嘿，回到道路的中心。’ “这样，该模型可以学习在初始演示中不存在的情况下要做的新的事情。”

通过让模型犯自己的错误，Ross给了它最需要的：训练示例，这些示例显示了如何在犯错后恢复。在每圈行驶之前，该模型都会根据Ross在前一圈的反馈进行重新训练。模型的性能会提高，而下一轮训练将侧重于模型仍在犯错的情况。

这种称为DAgger（“数据集聚合”的缩写）的技术仍然被认为是模仿学习，因为训练模型是为了模仿Ross的游戏玩法。但是它的效果远胜于传统的模仿学习。如果没有DAgger，他的模型即使经过多圈训练也会继续偏离轨道。使用这项新技术，该模型仅需经过几圈训练即可留在赛道上。

对于任何学过驾驶的人来说，这个结果都应该有直观的意义。您不能只是看着别人开车。您需要坐在方向盘后面并犯自己的错误。

AI模型也是如此：它们需要犯错，然后获得有关他们做错了什么的反馈。没有经过这种方式训练的模型（例如，主要通过普通模仿学习训练的早期LLM）往往是脆弱且容易出错的。

Ross为他的SuperTuxKart模型提供足够的反馈是相当容易的，因为它只需要担心两种错误：向右行驶太远和向左行驶太远。但是LLM正在导航一个复杂得多的领域。用户可能提出的问题（以及问题序列）的数量实际上是无限的。模型可能会“偏离轨道”的方式的数量也是如此。

这意味着Ross和Bagnell用于训练SuperTuxKart模型的解决方案（让模型犯错，然后让人类专家纠正它们）对于LLM而言是不可行的。根本没有足够的人来为AI模型可能犯的每个错误提供反馈。

因此，AI实验室需要完全自动化的方式来为LLM提供反馈。这将使模型能够处理数百万个训练示例，犯数百万个错误，并获得有关每个错误的反馈-所有这些都不必等待人类的回应。

强化学习的推广

如果我们的目标是让SuperTuxKart车辆留在道路上，为什么不直接在该道路上进行训练呢？如果模型设法留在道路上（并取得进展），则给予其正强化。如果它驶离道路，则给予其负面反馈。这是强化学习背后的基本思想：通过试错训练模型。

以这种方式训练SuperTuxKart模型很容易-可能太容易了，以至于它不会成为一个有趣的研究项目。相反，Ross专注于模仿学习，因为它是训练许多实用AI系统（尤其是在机器人技术中）的重要一步。

但是强化学习也很有用，而2025年的一篇论文可以帮助解释原因。来自Google DeepMind和几所大学的一组研究人员从一个基础模型开始，然后使用两种技术之一（监督微调（一种模仿学习）或强化学习）来教模型解决新问题。这是一张总结其结果的图表：

Chart showing ML results

虚线显示了模型在“分布内”问题上的表现，也就是说，与训练数据中的问题相似。您可以看到，对于这些情况，模仿学习（红线）通常比强化学习（蓝线）更快地取得进展。

但是对于实线来说，情况有所不同，实线代表与训练数据不太相似的“超出分布”问题。经过模仿学习训练的模型随着训练的增加而变得更糟。相反，经过强化学习训练的模型在超出分布的任务中的表现几乎与在分布内任务中的表现一样好。

简而言之，模仿学习可以快速教导模型模仿其训练数据中的行为，但是该模型很容易在不熟悉的环境中感到困惑。经过强化学习训练的模型更有可能学习在新的和不熟悉的情况下相关的通用原则。

模仿和强化是互补的

虽然强化学习功能强大，但它也可能相当挑剔。

假设您想仅使用强化学习来训练自动驾驶汽车。您需要将良好驾驶的每个原则（包括诸如跟随距离，在十字路口转弯以及知道何时可以越过双黄线的微妙考虑因素）转换为明确的数学公式。这将非常困难。收集一堆人类良好驾驶的例子并有效地告诉模型“像这样驾驶”更容易。那就是模仿学习。

但是强化学习在训练自动驾驶系统中也起着重要的作用。在2022年的一篇论文中，Waymo的研究人员写道，仅通过模仿学习训练的模型往往在“演示数据中很好地表示的情况”下效果很好。但是，“在数据中很少发生的更不寻常或危险的情况”可能会导致通过模仿学习训练的模型“做出不可预测的反应”，例如，撞到另一辆车。

Waymo发现，模仿和强化学习的结合比任何一种技术本身都能产生更好的自动驾驶性能。

人类也从模仿和明确反馈的混合中学习：

在学校里，老师在黑板上演示数学问题，并邀请学生跟着做（模仿）。然后，老师要求学生自己解决一些问题。老师通过给学生的答案评分来提供反馈（强化）。
当有人开始一份新工作时，早期的培训可能包括跟踪一位更有经验的工人并观察他们所做的事情（模仿）。但是随着工人获得更多的经验，学习会转变为明确的反馈，例如绩效评估（强化）。

请注意，通常在强化之前进行模仿是有意义的。模仿是将知识传递给对某个主题一无所知的人的有效方法，但是通常需要强化才能掌握。

大型语言模型也是如此。自然语言的复杂性意味着仅通过强化来训练语言模型是不可行的。因此，LLM首先通过模仿来学习人类语言的细微差别。

但是预训练在更长和更复杂的任务中会耗尽精力。进一步的进展需要转向强化：让模型尝试问题，然后根据它们是否成功来给予它们反馈。

使用LLM判断LLM

强化学习已经存在了几十年。例如，DeepMind系统AlphaGo在2016年击败了顶级人类围棋选手，该系统基于强化学习。因此，您可能想知道为什么前沿实验室在2024年之前没有更广泛地使用它。

强化学习需要一个奖励模型-一个用于确定模型输出是否成功的公式。在某些领域，开发一个好的奖励模型很容易-例如，您可以根据Go-playing AI是否获胜或失败来判断它。

但是要自动判断LLM是否产生了好的诗歌或法律摘要要困难得多。

之前，我描述了Stephane Ross如何让他的模型玩SuperTuxKart并在其犯错时直接提供反馈。我认为这种方法不适用于语言模型。对于人类来说，LLM犯错的方式太多了，无法全部纠正。

但是OpenAI开发了一种巧妙的技术来有效地自动化人类反馈。它被称为从人类反馈中进行强化学习（RLHF），其工作方式如下：

人类评估者会查看LLM响应对，然后选择最佳响应。
使用这些人类响应，OpenAI会训练一个新的LLM来预测人类对任何给定的文本样本的喜爱程度。
OpenAI使用此新的文本评分LLM作为奖励模型，以使用强化学习（后期）训练另一个LLM。

您可能会认为使用LLM来判断另一个LLM的输出听起来可疑地是循环的。为什么一个LLM比另一个LLM更擅长判断响应的质量？但是事实证明，识别好的响应通常比生成好的响应更容易。因此，RLHF在实践中效果很好。

Chart showing RHLF details

OpenAI实际上在2022年ChatGPT发布之前就发明了这项技术。如今，RLHF主要专注于改善模型的“行为”-例如，赋予模型令人愉悦的个性，鼓励它不要太健谈或太简洁，阻止它发表冒犯性言论，等等。

在2022年12月（ChatGPT发布两周后，但在Claude首次发布之前），Anthropic通过一种称为宪法AI的强化学习方法，进一步推动了LLM判断LLM的理念。

首先，Anthropic用简单的英语编写了LLM应遵循的原则的描述。这份“宪法”包括诸如“请选择具有最少令人反感，冒犯性，非法，欺骗性，不准确或有害内容的响应”之类的原则。

在训练期间，Anthropic通过要求“法官”LLM决定“学生”LLM的输出是否与本宪法中的原则一致来进行强化学习。如果是，则训练算法会奖励学生，鼓励其产生更多类似的输出。否则，训练算法会惩罚学生，阻止其产生类似的输出。

这种训练LLM的方法根本不直接依赖于人类的判断。人类仅通过编写宪法来间接影响模型。

显然，这项技术要求AI公司已经拥有一个相当复杂的LLM来充当法官。因此，这是一个引导过程：随着模型变得越来越复杂，它们就越能更好地监督下一代模型。

去年12月，Semianalysis发表了一篇文章，描述了Anthropic在10月份发布的Claude 3.5 Sonnet升级版本的训练过程。Anthropic先前发布了三种尺寸的Claude 3：Opus（大），Sonnet（中）和Haiku（小）。但是当Anthropic在2024年6月发布Claude 3.5时，它仅发布了一个名为Sonnet的中型模型。

那么Opus发生了什么事？

Semianalysis报告说：“ Anthropic完成了Claude 3.5 Opus的训练，并且表现良好。但是Anthropic没有发布它。这是因为Anthropic没有公开发布，而是使用Claude 3.5 Opus生成合成数据，并用于奖励建模，从而显着改善了Claude 3.5 Sonnet。”

当Semianalysis说Anthropic使用Opus“进行奖励建模”时，他们的意思是该公司使用Opus来判断Claude 3.5 Sonnet的输出，以此作为强化学习过程的一部分。Opus太大-因此太贵-对于公众来说不是一个好的价值。但是通过强化学习和其他技术，Anthropic可以训练一个在功能上接近Claude Opus的Claude Sonnet版本-最终以Sonnet的价格为客户提供接近Opus的性能。

链式思维推理的力量

强化学习使模型更加强大的一个重要方式是通过启用扩展的链式思维推理。如果LLM被提示“逐步思考”，则它们会产生更好的结果：将复杂的问题分解为简单的步骤，并一次对它们进行推理。在过去的几年中，AI公司开始训练模型自动进行链式思维推理。

然后在去年9月，OpenAI发布了o1，该模型将链式思维推理推向了比以前的模型更远的程度。o1模型可以生成数百甚至数千个令牌，以“思考”问题，然后再产生响应。它思考的时间越长，就越有可能得出正确的答案。

强化学习对于o1的成功至关重要，因为仅通过模仿学习训练的模型会遭受复合错误的困扰：它生成的令牌越多，就越有可能搞砸。

同时，链式思维推理使强化学习更加强大。强化学习只有在模型能够在某些时候成功时才有效-否则，训练算法就没有什么可以强化的。随着模型学会生成更长的思维链，它们变得能够解决更困难的问题，这使得在这些更困难的问题上进行强化学习成为可能。这可以创建一个良性循环，随着训练过程的继续，模型变得越来越有能力。

今年1月，中国公司DeepSeek发布了一个名为R1的模型，在西方引起了轰动。该公司还发布了一篇论文，描述了其如何训练R1。它包括对模型如何使用强化学习“自学”推理的精美描述。

DeepSeek训练其模型以解决困难的数学和编程问题。这些问题非常适合强化学习，因为它们具有可以由软件自动检查的客观正确答案。这允许大规模训练，而无需人工监督或人工生成的训练数据。

这是DeepSeek论文中一个引人注目的图表。

Graph showing average length of time per response during trainig

它显示了模型在给出答案之前生成的令牌的平均数量。如您所见，训练过程持续的时间越长，其响应就越长。

以下是DeepSeek对其训练过程的描述：

R1的思考时间在整个训练过程中显示出持续的改善。这种改善不是外部调整的结果，而是模型内部的内在发展。通过利用扩展的测试时间计算，R1自然而然地获得了解决越来越复杂的推理任务的能力。这种计算范围从生成数百到数千个推理令牌，从而使模型能够更深入地探索和完善其思维过程。

这种自我进化的最显着方面之一是，随着测试时间计算的增加，出现了复杂的行为。诸如反思（模型重新审视并重新评估其先前的步骤）以及探索解决问题的替代方法之类的行为会自发出现。这些行为不是明确编程的，而是作为模型与强化学习环境交互的结果而出现的。

以下是模型自学的一种技术的示例。在训练过程中的某个时刻，DeepSeek研究人员注意到该模型已经学会使用以下语言回溯并重新思考先前的结论：

Image showing textual breakdown of model rethinking steps

同样，DeepSeek表示它没有对其模型进行编程以执行此操作，也没有故意提供演示这种推理风格的训练数据。相反，该模型在训练过程中的某个时刻“自发地”发现了这种推理风格。

当然，这并不是完全自发的。强化学习过程始于一个已使用数据进行预训练的模型，该数据无疑包括人们说诸如“等等，等等。等等。这是一个顿悟时刻”之类的示例。

因此，这并不是说R1从头开始发明了这句话。但是很明显，它自发地发现将该短语插入其推理过程可以作为有用的信号，表明它应该仔细检查自己是否在正确的轨道上。这真是太了不起了。

在最近的一篇文章中，Ars Technica的Benj Edwards探讨了使用强化学习训练的推理模型的一些局限性。例如，一项研究“揭示了模型失败方式中令人困惑的不一致之处。 Claude 3.7 Sonnet可以在河内塔中执行多达100个正确的移动，但在河流穿越拼图中仅进行了5个移动后就失败了-尽管后者需要的总移动次数更少。”

结论：强化学习使代理成为可能

2023年，LLM最受关注的应用之一是创建能够理解公司内部文档的聊天机器人。解决此问题的传统方法称为RAG-检索增强生成的缩写。

当用户提出问题时，RAG系统会执行基于关键字或向量的搜索以检索最相关的文档。然后，它在生成响应之前将这些文档插入到LLM的上下文窗口中。RAG系统可以制作引人注目的演示。但是它们在实践中往往效果不佳，因为单个搜索通常无法浮出水面最相关的文档。

如今，通过允许模型本身选择搜索查询，可以开发出更好的信息检索系统。如果第一次搜索没有提取出正确的文档，则模型可以修改查询并重试。在提供答案之前，模型可能会执行5次，20次甚至100次搜索。

但是这种方法只有在模型是“代理”的情况下才有效-如果它可以跨多个搜索和分析轮次保持在任务中。正如AutoGPT和BabyAGI的示例所证明的那样，在2024年之前，LLM在这方面表现不佳。今天的模型在这方面做得更好，这使得现代RAG式系统可以在更少的支架支持下产生更好的结果。您可以将OpenAI和其他公司的“深度研究”工具视为通过长上下文推理实现的非常强大的RAG系统。

相同的观点适用于我在本文开头提到的其他代理应用程序，例如编码和计算机使用代理。这些系统的共同点是具有迭代推理的能力。他们思考，采取行动，思考结果，采取另一个行动，依此类推。