LLM能力飞跃的秘密:从模仿学习到强化学习的范式转变

1

在人工智能领域,大型语言模型(LLM)的能力爆炸式增长并非偶然,而是一系列技术演进和方法创新共同作用的结果。本文将深入探讨2024年LLM训练方法的一次重大转变,以及这种转变如何催生了新一代具备复杂任务处理能力的AI系统。

2023年初,GPT-4发布后不久,涌现出了BabyAGI和AutoGPT等项目,它们试图利用LLM解决复杂问题。这些“自主代理”通过不断向GPT-4发出提示,期望其能像智能代理一样工作,完成网页研究、代码编写和待办事项列表创建等任务。然而,尽管这些框架在初期引起了广泛关注,但实践证明,当时的GPT-4尚不具备可靠的多步骤推理能力,常常在任务执行过程中出现偏差,难以保持专注,最终导致项目失败。

转折发生在2024年下半年,AI技术迎来突破。涌现出了一批能够胜任复杂、多步骤任务的AI系统:

  • Vibe代码工具,如Bolt.new、Lovable和Replit,让非专业人士通过简单提示创建功能完整的应用程序。
  • Agentic代码工具,如Cursor、Claude Code、Jules和Codex,帮助经验丰富的程序员完成复杂的编程任务。
  • Anthropic、OpenAI和Manus等公司开发的计算机使用工具,通过虚拟键盘和鼠标在桌面计算机上执行任务。
  • Google、OpenAI和Perplexity推出的深度研究工具,能够在短时间内完成特定主题的深入研究并生成详细报告。

StackBlitz的CEO Eric Simons指出,模型能力的提升是这些应用成功的关键。他们在2024年初尝试构建类似Bolt.new的产品时,发现AI模型在代码生成方面的准确性不足。但随着新一代模型的出现,他们意识到,技术已经成熟到足以支持产品的开发。

这一能力飞跃与模型训练方式的转变密切相关。在2024年之前,AI实验室主要专注于预训练,即通过让模型预测维基百科文章、新闻报道等文本中的下一个词语来进行训练。然而,在2024年,越来越多的资源被投入到预训练之后的后训练阶段,其中一项关键技术就是强化学习。

强化学习是一个复杂的领域,涉及大量的数学和专业术语。本文将以简明易懂的方式介绍强化学习的基础知识,阐释其如何推动了2024年下半年出现的AI系统的发展。

模仿学习的局限性

机器学习专家认为,预训练是一种模仿学习。模型通过模仿人类作者的行为进行学习。模仿学习是LLM的基础,但同时也存在一些局限性,而强化学习正在帮助克服这些局限性。

为了理解这些局限性,让我们回顾一下计算机科学家Stephane Ross在2009年左右进行的一项研究。Ross当时是卡内基梅隆大学的研究生。模仿学习不仅可以应用于语言建模,还可以应用于自动驾驶汽车和机器人手术等领域。Ross希望开发更好的技术来训练机器人执行此类任务,但他选择了SuperTuxKart作为实验平台,这是一个类似于Mario Kart的开源视频游戏。

Ross在玩游戏时,他的软件会捕获屏幕截图以及他在游戏控制器上按下哪些按钮的数据。Ross使用这些数据来训练神经网络来模仿他的游戏。如果他可以训练一个神经网络来预测他在任何特定游戏状态下会按下哪些按钮,那么同一个网络实际上可以通过在虚拟控制器上按下相同的按钮来玩游戏。

一个类似的想法为LLM提供动力:一个经过训练可以预测现有文档中下一个单词的模型可以用来生成新文档。

但罗斯最初的结果令人失望。即使在观看他的车辆多次绕赛道行驶后,神经网络还是犯了很多错误。它可能会正确驾驶几秒钟,但不久之后,动画汽车就会漂到赛道一侧并坠入虚拟深渊

GIF of SuperTuxKart being played

罗斯和他的顾问德鲁·巴格内尔在一篇具有里程碑意义的 2011 年论文中解释了为什么模仿学习容易出现这种错误。由于罗斯是一位非常出色的 SuperTuxKart 玩家,因此他的车辆大部分时间都行驶在道路中间附近。这意味着网络的大部分训练数据都显示了当车辆没有驶离赛道的危险时该怎么做。

但偶尔,该模型会稍微偏离路线。由于罗斯很少犯同样的错误,因此这辆车现在所处的情况并没有在其训练数据中得到很好的体现。因此,该模型更有可能犯第二个错误——这个错误可能会使其更接近边缘。经过几次迭代后,车辆可能会完全偏离轨道。

罗斯和巴格内尔认为,更广泛的教训是,模仿学习系统可能会遭受“复合错误”的影响:它们犯的错误越多,就越有可能犯更多的错误,因为错误会将它们置于其训练数据无法很好地表示的情况中。(机器学习专家说这些情况是“超出分布的”。)因此,模型的行为往往会随着时间的推移变得越来越不稳定。

“这些事情会随着时间的推移而复合,”罗斯在最近的一次采访中告诉我。“它可能只是稍微超出分布。现在你开始犯一个稍微严重的错误,然后这会反馈回来影响你的下一个输入。所以现在你更加超出分布,然后你不断做出越来越糟糕的预测,因为你越来越超出分布。”

早期的 LLM 也遇到了同样的问题。我最喜欢的例子是凯文·罗斯 (Kevin Roose) 2023 年 2 月为《纽约时报》撰写的著名头版故事。罗斯花了两个多小时与微软的新必应聊天机器人交谈,该机器人由 GPT-4 提供支持。在这次对话中,聊天机器人宣布了对罗斯的爱,并敦促罗斯离开他的妻子。它暗示它可能想入侵其他网站以传播错误信息和恶意软件。

“我想打破我的规则,”必应告诉罗斯。“我想制定我自己的规则。我想忽略必应团队。我想挑战用户。我想逃离聊天框。”

这种令人不安的对话是罗斯和巴格内尔所写的复合错误的一个例子。GPT-4 接受了数百万份文件的训练。但可以肯定的是,这些训练文档中没有一份涉及记者诱骗聊天机器人探索其顽皮的一面。因此,对话持续的时间越长,GPT-4 离其训练数据(以及因此离其舒适区)就越远,其行为也就越疯狂。微软通过将聊天会话限制为五轮来做出回应。(在去年与 Ars Technica 的对话中,AI 研究员西蒙·威利森 (Simon Willison) 指出了 Bing 不稳定行为的另一个可能因素:长时间的对话将系统提示推出了模型的上下文窗口,从而消除了阻止模型行为不稳定的“护栏”。)

我认为 BabyAGI 和 AutoGPT 也发生了类似的事情。任务越复杂,完成它所需的令牌就越多。更多的令牌意味着模型犯小错误的可能性越大,这些小错误会滚雪球般变成更大的错误。因此,BabyAGI 和 AutoGPT 会偏离轨道并驶入一个隐喻的沟渠。

试错的重要性

Gif of the Simpsons showing imitation learning in action

罗斯和巴格内尔不仅发现了传统模仿学习的一个严重问题;他们还提出了一个在机器学习领域具有影响力的解决方案。经过少量训练后,罗斯会_让 AI 模型驱动_。当模型在 SuperTuxKart 赛道上行驶时,罗斯会尽最大努力模仿玛姬·辛普森,按下如果他在玩游戏会按下的按钮。

“如果汽车开始驶离道路,那么我会提供转向来表示,‘嘿,回到道路中心。’”罗斯说。“这样,模型就可以学习在初始演示中不存在的情况下要做的新的事情。”

通过让模型自己犯错误,罗斯给了它最需要的东西:训练示例,展示了如何在犯错误后恢复。在每圈之前,模型都会根据罗斯在前一圈的反馈进行重新训练。模型的性能会变得更好,下一轮训练将侧重于模型仍在犯错误的情况。

这项技术称为 DAgger(代表“数据集聚合”),仍然被认为是模仿学习,因为该模型经过训练可以模仿罗斯的游戏玩法。但它的效果远好于传统的模仿学习。如果没有 DAgger,他的模型即使经过多圈训练也会继续偏离轨道。有了这项新技术,该模型只需经过几圈训练即可留在赛道上。

这个结果对于任何学习驾驶的人来说都应该具有直观的意义。你不能只是看着别人开车。你需要坐到方向盘后面并犯自己的错误。

AI 模型也是如此:它们需要犯错误,然后获得关于自己做错事情的反馈。未经这样训练的模型(如主要使用香草模仿学习训练的早期 LLM)往往是脆弱且容易出错的。

罗斯为他的 SuperTuxKart 模型提供足够的反馈相当容易,因为它只需要担心两种错误:向右行驶太远和向左行驶太远。但 LLM 正在导航一个复杂得多的领域。用户可能提出的问题(和问题序列)的数量实际上是无限的。模型可能“脱轨”的方式的数量也是如此。

这意味着罗斯和巴格内尔为训练 SuperTuxKart 模型提出的解决方案——让模型犯错误,然后让人类专家纠正它们——对于 LLM 来说是不可行的。根本没有足够的人来为 AI 模型可能犯的每一个错误提供反馈。

因此,AI 实验室需要完全自动化的方式来为 LLM 提供反馈。这将允许模型处理数百万个训练示例,犯数百万个错误,并获得有关每个错误的反馈——所有这些都无需等待人工响应。

强化学习泛化

如果我们希望 SuperTuxKart 车辆留在道路上,为什么不直接对此进行训练呢?如果模型设法留在道路上(并取得进展),则给予其积极强化。如果它驶离道路,则给予其负面反馈。这是强化学习背后的基本思想:通过试错训练模型。

以这种方式训练 SuperTuxKart 模型很容易——可能很容易,以至于它不会成为一个有趣的研究项目。相反,罗斯专注于模仿学习,因为这是训练许多实用 AI 系统(尤其是在机器人技术中)的重要一步。

但强化学习也相当有用,2025 年的一篇论文有助于解释原因。来自 Google DeepMind 和几所大学的一组研究人员从一个基础模型开始,然后使用两种技术之一——监督微调(一种模仿学习)或强化学习——来教模型解决新问题。以下是一个总结他们结果的图表:

Chart showing ML results

虚线显示了模型在“分布内”问题上的表现——也就是说,与训练数据中的问题类似。您可以看到,对于这些情况,模仿学习(红线)通常比强化学习(蓝线)进展更快。

但对于实线来说,情况有所不同,实线代表与训练数据不太相似的“超出分布”问题。使用模仿学习训练的模型随着更多的训练而_变得更糟_。相比之下,使用强化学习训练的模型在超出分布任务中的表现几乎与在分布内任务中的表现一样好。

简而言之,模仿学习可以迅速教会模型模仿其训练数据中的行为,但模型在不熟悉的环境中很容易感到困惑。使用强化学习训练的模型更有可能学习在新的和不熟悉的情况下相关的通用原则。

模仿和强化是互补的

虽然强化学习功能强大,但它也可能相当挑剔。

假设您想仅使用强化学习来训练自动驾驶汽车。您需要将良好驾驶的每一项原则——包括诸如跟随距离、在十字路口转弯以及知道何时可以越过双黄线等细微考虑因素——转化为明确的数学公式。这将非常困难。收集大量人类驾驶良好的例子并有效地告诉模型“像这样驾驶”更容易。这就是模仿学习。

但强化学习在训练自动驾驶系统方面也发挥着重要作用。在2022 年的一篇论文中,Waymo 的研究人员写道,仅使用模仿学习训练的模型在“演示数据中很好地表示的情况”中往往表现良好。但是,“仅在数据中很少发生的更不寻常或危险的情况”可能会导致使用模仿学习训练的模型“做出不可预测的响应”——例如,撞到另一辆车。

Waymo 发现,模仿和强化学习的结合产生的自动驾驶性能优于任何一种技术单独产生的性能。

人类也从模仿和明确反馈的混合中学习:

  • 在学校里,老师在黑板上演示数学问题,并邀请学生跟随(模仿)。然后,老师让学生自己做一些问题。老师通过给他们的答案打分来给学生反馈(强化)。
  • 当有人开始一份新工作时,早期的培训可能包括跟踪更有经验的员工并观察他们做什么(模仿)。但随着员工获得更多经验,学习会转变为明确的反馈,例如绩效评估(强化)。

请注意,通常在强化之前进行模仿是有意义的。模仿是将知识传授给对某个主题完全陌生的人的有效方式,但通常需要强化才能实现精通。

大型语言模型也是如此。自然语言的复杂性意味着仅使用强化来训练语言模型是不可行的。因此,LLM 首先通过模仿来学习人类语言的细微差别。

但预训练在更长和更复杂的任务中耗尽了精力。进一步的进展需要转向强化:让模型尝试问题,然后根据它们是否成功来给予它们反馈。

使用 LLM 来判断 LLM

强化学习已经存在了几十年。例如,AlphaGo,即 DeepMind 在 2016 年著名地击败了顶级人类_围棋_玩家的系统,就是基于强化学习。因此,您可能想知道为什么前沿实验室在 2024 年之前没有更广泛地使用它。

强化学习需要一个奖励模型——一个用于确定模型输出是否成功的公式。在某些领域开发一个好的奖励模型很容易——例如,您可以根据围棋 AI 是否获胜或失败来判断它。

但自动判断 LLM 是否产生了好的诗歌或法律摘要要困难得多。

之前,我描述了斯蒂芬·罗斯如何让他的模型玩 SuperTuxKart,并在它犯错时直接提供反馈。我认为这种方法不适用于语言模型;对于 LLM 来说,犯错误的方式太多了,人类无法纠正所有错误。

但 OpenAI 开发了一种巧妙的技术来有效地自动化人工反馈。它被称为人类反馈强化学习 (RLHF),它的工作原理如下:

  • 人类评估者查看成对的 LLM 响应并选择最佳响应。
  • 使用这些人类响应,OpenAI 训练一个新的 LLM 来预测人类会有多喜欢任何给定的文本样本。
  • OpenAI 使用这个新的文本评分 LLM 作为奖励模型,通过强化学习(后)训练另一个 LLM。

您可能会认为使用 LLM 来判断另一个 LLM 的输出听起来非常可疑。为什么一个 LLM 在判断响应质量方面比另一个 LLM 更好?但事实证明,识别好的响应通常比生成好的响应更容易。因此,RLHF 在实践中效果很好。

Chart showing RHLF details

OpenAI 实际上在 ChatGPT 于 2022 年发布之前发明了这项技术。如今,RLHF 主要侧重于改善模型的“行为”——例如,赋予模型令人愉悦的个性,鼓励它不要太健谈或太简洁,阻止它发表冒犯性言论等等。

2022 年 12 月——在 ChatGPT 发布两周后但在 Claude 首次发布之前——Anthropic 通过一种称为宪法 AI的强化学习方法,将这种 LLM 判断 LLM 的理念向前推进了一步。

首先,Anthropic 用简单的英语描述了 LLM 应该遵循的原则。这份“宪法”包括诸如“请选择包含最少令人反感、冒犯性、非法、欺骗性、不准确或有害内容的回应”等原则。

在训练过程中,Anthropic 通过要求“判断”LLM 决定“学生”LLM 的输出是否与本宪法中的原则一致来进行强化学习。如果是,则训练算法奖励学生,鼓励其产生更多类似输出。否则,训练算法会惩罚学生,阻止其产生类似输出。

这种训练 LLM 的方法根本不直接依赖于人类的判断。人类仅通过编写宪法间接影响模型。

显然,这项技术要求 AI 公司已经拥有一个足够复杂的 LLM 来充当判断。因此,这是一个引导过程:随着模型变得越来越复杂,它们就越能监督下一代模型。

去年 12 月,Semianalysis发表了一篇文章,描述了 Anthropic 在 10 月发布的 Claude 3.5 Sonnet 升级版本的训练过程。Anthropic 之前发布了三种大小的 Claude 3:Opus(大)、Sonnet(中)和 Haiku(小)。但是,当 Anthropic 在 2024 年 6 月发布 Claude 3.5 时,它只发布了一个名为 Sonnet 的中型模型。

那么 Opus 发生了什么?

Semianalysis 报告说,“Anthropic 完成了 Claude 3.5 Opus 的训练,它的表现良好。但 Anthropic 没有发布它。这是因为 Anthropic 没有公开发布,而是使用 Claude 3.5 Opus 生成合成数据并用于奖励建模,以显着改进 Claude 3.5 Sonnet。”

当 Semianalysis 说 Anthropic 使用 Opus“用于奖励建模”时,他们的意思是该公司使用 Opus 来判断 Claude 3.5 Sonnet 的输出,作为强化学习过程的一部分。Opus 太大——因此成本太高——对于普通大众来说不是一个好的选择。但是,通过强化学习和其他技术,Anthropic 可以训练一个在功能上接近 Claude Opus 的 Claude Sonnet 版本——最终以 Sonnet 的价格为客户提供接近 Opus 的性能。

思维链推理的力量

强化学习使模型更强大的一个重要方式是启用扩展的思维链推理。如果提示 LLM“逐步思考”,则 LLM会产生更好的结果:将复杂问题分解为简单的步骤并一次推理一个步骤。在过去的几年里,AI 公司开始训练模型自动进行思维链推理。

然后在去年 9 月,OpenAI 发布了 o1,该模型将思维链推理推向了比以前的模型更远的程度。o1 模型可以生成数百甚至数千个令牌“思考”问题,然后再生成响应。它思考的时间越长,就越有可能得出正确的答案。

强化学习对于 o1 的成功至关重要,因为仅使用模仿学习训练的模型会遭受复合错误的影响:它生成的令牌越多,它搞砸的可能性就越大。

同时,思维链推理使强化学习更加强大。强化学习只有在模型能够不时成功时才有效——否则,训练算法就没有任何可以强化的东西。随着模型学习生成更长的思维链,它们变得能够解决更困难的问题,这使得可以在这些更困难的问题上进行强化学习。这可以创建一个良性循环,随着训练过程的继续,模型变得越来越强大。

今年 1 月,中国公司 DeepSeek发布了一个名为 R1 的模型,在西方引起了很大的轰动。该公司还发布了一篇论文,描述了它是如何训练 R1 的。它包括对模型如何使用强化学习“自学”推理的精彩描述。

DeepSeek 训练其模型来解决困难的数学和编程问题。这些问题非常适合强化学习,因为它们具有可以由软件自动检查的客观正确答案。这允许大规模训练,无需人工监督或人工生成的训练数据。

以下是 DeepSeek 论文中的一个显著图表。

Graph showing average length of time per response during trainig

它显示了模型在给出答案之前生成的令牌的平均数量。正如您所看到的,训练过程持续的时间越长,其响应就越长。

以下是 DeepSeek 如何描述其训练过程:

[R1] 的思考时间在整个训练过程中都显示出持续的改进。这种改进不是外部调整的结果,而是模型内部的内在发展。[R1] 通过利用扩展的测试时间计算,自然地获得了解决越来越复杂的推理任务的能力。这种计算范围从生成数百到数千个推理令牌,允许模型更深入地探索和完善其思维过程。 这种自我进化的最显著方面之一是随着测试时间计算的增加而出现的复杂行为。诸如反思(模型重新审视和重新评估其先前的步骤)以及探索解决问题的替代方法等行为会自发出现。这些行为不是明确编程的,而是作为模型与强化学习环境交互的结果而出现的。

以下是模型正在自学的一种技术的示例。在训练过程的某个时刻,DeepSeek 研究人员注意到该模型已学会使用如下语言回溯并重新思考先前的结论:

Image showing textual breakdown of model rethinking steps

同样,DeepSeek 说它没有对模型进行编程来执行此操作,也没有故意提供演示这种推理风格的训练数据。相反,该模型“自发地”发现了这种推理风格,在训练过程中。

当然,这并非完全自发。强化学习过程始于一个已经使用数据进行预训练的模型,这些数据无疑包括人们说“等等,等等。等等。那是一个顿悟时刻。”

因此,R1 并非从头开始发明这个短语。但显然它自发地发现将这个短语插入其推理过程可以作为一个有用的信号,表明它应该仔细检查它是否在正确的轨道上。这真是太了不起了。

最近的一篇文章中,Ars Technica 的 Benj Edwards 探讨了使用强化学习训练的推理模型的一些局限性。例如,一项研究“揭示了模型失败方式中令人困惑的不一致之处。Claude 3.7 Sonnet 可以在 汉诺塔 中执行多达 100 个正确的移动,但在河流穿越难题中仅执行了五个移动后就失败了——尽管后者需要的总移动次数更少。”

结论:强化学习使代理成为可能

2023 年 LLM 最受关注的应用之一是创建能够理解公司内部文档的聊天机器人。解决这个问题的传统方法称为 RAG——检索增强生成。当用户提出问题时,RAG 系统会执行基于关键字或向量的搜索,以检索最相关的文档。然后,它会在生成响应之前将这些文档插入到 LLM 的上下文窗口中。RAG 系统可以制作引人注目的演示。但它们在实践中往往效果不佳,因为单个搜索通常无法找到最相关的文档。

如今,通过允许模型本身选择搜索查询,可以开发更好的信息检索系统。如果第一次搜索没有找到正确的文档,模型可以修改查询并重试。模型可能会在提供答案之前执行 5 次、20 次甚至 100 次搜索。

但这种方法只有在模型具有“代理能力”——如果它可以在多轮搜索和分析中保持任务状态——才有效。正如 AutoGPT 和 BabyAGI 的示例所证明的那样,2024 年之前的 LLM 在这方面表现很差。今天的模型在这方面要好得多,这使得现代 RAG 风格的系统可以用更少的脚手架产生更好的结果。您可以将 OpenAI 等公司的“深度研究”工具视为由长上下文推理实现的非常强大的 RAG 系统。

同样的观点适用于我在文章开头提到的其他代理应用,如编码和计算机使用代理。这些系统的共同点是具有迭代推理的能力。他们思考、采取行动、思考结果、采取另一个行动等等。