MIT突破：测试时训练如何让LLM在复杂推理中表现更出色？

在当今快速发展的科技领域，大型语言模型（LLM）已成为各行各业不可或缺的工具。然而，这些模型在面对需要复杂推理能力的新任务时，往往表现出明显的局限性。为了解决这一问题，麻省理工学院（MIT）的研究人员开发了一种创新方法，旨在提高LLM在战略规划和流程优化等挑战性任务中的适应性。

LLM的局限性与适应性需求

大型语言模型在处理特定领域的任务时表现出色，例如总结财务报告。然而，当任务超出其预先设定的范围时，例如预测市场趋势或识别欺诈交易，这些模型可能会 неожиданно 失败。这种局限性凸显了LLM在适应新任务和复杂问题方面的不足。

为了弥补这一缺陷，MIT的研究人员专注于研究一种特定的训练技术，即测试时训练（test-time training），以提高模型在不熟悉且困难的问题上的性能。他们的研究表明，通过在部署过程中临时更新模型的一些内部运作方式，测试时训练可以将模型的准确性提高六倍。研究人员还开发了一个框架，用于实施测试时训练策略，该策略利用新任务的示例来最大化这些增益。

A robot holds a lightbulb, surrounded by chalkboards.

测试时训练：提升LLM适应性的关键

测试时训练是一种在模型部署期间动态更新其参数的技术。通过使用少量特定于任务的新数据，模型可以调整其内部变量，从而提高其在新任务上的性能。这种方法与传统的训练方法不同，后者在模型部署后通常保持不变。测试时训练使LLM能够适应不断变化的需求，并在各种复杂场景中保持卓越的性能。

研究人员的成果有望提高模型的灵活性，使现成的LLM能够适应需要规划或抽象的复杂任务。这将催生在需要逻辑推理的各种应用中更准确的LLM，例如医疗诊断和供应链管理。Ekin Akyürek博士（2025届）是该研究的主要作者，他强调了测试时训练的重要性：“真正的学习——我们在这里通过测试时训练所做的事情——是这些模型在交付后无法独立完成的。他们无法获得新的技能或在任务中变得更好。但我们已经表明，如果你稍微推动模型进行实际学习，你会发现性能可以得到巨大的提升。”

研究团队与论文

这项研究由Ekin Akyürek博士领导，合作者包括研究生Mehul Damani、Linlu Qiu、Han Guo和Jyothish Pari；本科生Adam Zweiger；以及资深作者Yoon Kim（电气工程与计算机科学（EECS）助理教授，计算机科学与人工智能实验室（CSAIL）成员）和Jacob Andreas（EECS副教授，CSAIL成员）。该研究成果将在国际机器学习会议上发表。

该论文可在以下链接找到：https://arxiv.org/pdf/2411.07279

应对复杂领域

LLM用户经常尝试使用一种称为情境学习（in-context learning）的技术来提高模型在新任务上的性能。他们向模型提供一些新任务的示例作为文本提示，以指导模型的输出。然而，情境学习并不总是适用于需要逻辑和推理的问题。

MIT的研究人员研究了如何将测试时训练与情境学习结合使用，以提高这些具有挑战性的任务的性能。测试时训练涉及使用少量特定于手头任务的新数据来更新一些模型参数——模型用于进行预测的内部变量。

研究人员探讨了测试时训练如何与情境学习相互作用。他们研究了可以最大限度地提高通用LLM性能的设计选择。Mehul Damani表示：“我们发现测试时训练是一种更强大的学习形式。虽然简单地提供示例可以适度提高准确性，但实际上使用这些示例更新模型可以带来显着更好的性能，尤其是在具有挑战性的领域。”

测试时训练的实施

情境学习需要一小组任务示例，包括问题及其解决方案。研究人员使用这些示例来创建测试时训练所需的特定于任务的数据集。为了扩大此数据集的大小，他们通过稍微更改示例中的问题和解决方案来创建新的输入，例如水平翻转一些输入数据。他们发现，在这一新数据集的输出上训练模型可以获得最佳性能。

此外，研究人员仅使用一种称为低秩自适应（low-rank adaption）的技术更新少量模型参数，这提高了测试时训练过程的效率。Ekin Akyürek表示：“这很重要，因为我们的方法需要在现实世界中部署时具有效率。我们发现，通过少量参数训练，你可以获得巨大的准确性提升。”

开发新技能

简化流程是关键，因为测试时训练是按实例进行的，这意味着用户需要为每个单独的任务执行此操作。对模型的更新只是暂时的，模型在做出预测后会恢复到其原始形式。Akyürek补充说，通常需要不到一分钟的时间来回答查询的模型可能需要五到十分钟才能通过测试时训练提供答案。

他说：“我们不想对所有用户查询都这样做，但如果你想让模型很好地解决一个非常困难的任务，这将非常有用。对于LLM来说，如果没有这种方法，可能有些任务太具挑战性而无法解决。”

研究人员在两个极其复杂的问题的基准数据集（例如智商难题）上测试了他们的方法。与仅使用情境学习的技术相比，它将准确性提高了六倍。

涉及结构化模式或使用完全不熟悉类型的数据的任务显示出最大的性能改进。Damani说：“对于更简单的任务，情境学习可能还可以。但是更新参数本身可能会在模型中开发出一种新技能。”

未来展望

展望未来，研究人员希望利用这些见解来开发不断学习的模型。最终目标是，给定一个查询，LLM可以自动确定是否需要使用测试时训练来更新参数，或者是否可以使用情境学习来解决任务，然后实施最佳测试时训练策略，而无需人工干预。

这项工作得到了MIT-IBM Watson AI实验室和美国国家科学基金会的部分支持。

相关链接

Ekin Akyürek: https://ekinakyurek.github.io
Yoon Kim: https://people.csail.mit.edu/yoonkim/
Jacob Andreas: https://www.mit.edu/~jda/
计算机科学与人工智能实验室: https://www.csail.mit.edu
电气工程与计算机科学系: https://www.eecs.mit.edu
工程学院: https://engineering.mit.edu
MIT Schwarzman计算学院: https://computing.mit.edu
MIT-IBM Watson AI实验室: https://mitibmwatsonailab.mit.edu