MIT突破：测试时训练让LLM复杂推理能力提升6倍

在人工智能领域，大型语言模型（LLM）已成为一种强大的工具，但它们在面对需要复杂推理能力的新任务时，往往会遇到瓶颈。近日，麻省理工学院（MIT）的研究人员开发出一种创新方法，旨在显著提升LLM在处理此类挑战性任务时的适应性和准确性。

LLM的局限性与日俱增

尽管LLM在诸多应用中表现出色，例如总结财务报告，但在需要预测市场趋势或识别欺诈交易等更复杂的任务时，其能力往往会大打折扣。这种局限性促使研究人员不断探索新的方法，以提高LLM在不同领域的适应性。

MIT研究的突破性进展

MIT的研究团队深入研究了一种名为“测试时训练”（test-time training）的技术，并探索如何战略性地部署该技术，以提升LLM在处理不熟悉且困难问题时的性能。研究结果表明，通过在部署过程中临时更新模型的部分内部运作方式，可以实现高达六倍的准确性提升。研究人员还开发了一个框架，用于实施测试时训练策略，该策略利用新任务的示例来最大化这些增益。

A robot holds a lightbulb, surrounded by chalkboards.

测试时训练：提升LLM适应性的关键

测试时训练是一种在模型部署期间，利用少量新数据来更新模型参数的技术。与传统的训练方法不同，测试时训练允许模型在实际应用中不断学习和适应，从而提高其在特定任务上的性能。MIT的研究人员发现，通过战略性地应用测试时训练，可以显著提高LLM在复杂任务中的准确性。

该研究的潜在影响

这项研究的成果有望提高LLM的灵活性，使其能够适应需要规划或抽象的复杂任务。这将为LLM在医疗诊断、供应链管理等需要逻辑推理的领域开辟新的应用前景。例如，在医疗领域，LLM可以利用测试时训练来提高疾病诊断的准确性，从而帮助医生做出更明智的决策。在供应链管理领域，LLM可以利用测试时训练来优化库存管理和物流规划，从而提高效率和降低成本。

研究人员的观点

该研究的主要作者Ekin Akyürek博士表示：“真正的学习是这些模型在交付后无法独立完成的。它们无法获得新的技能或在任务中变得更好。但我们已经表明，如果你稍微推动模型进行实际学习，你就会看到性能的巨大提升。”

研究细节

该研究的论文由Ekin Akyürek、Mehul Damani、Linlu Qiu、Han Guo、Jyothish Pari、Adam Zweiger以及Yoon Kim和Jacob Andreas共同撰写。该研究成果将在国际机器学习会议上发表。

测试时训练与上下文学习

LLM用户通常会尝试使用一种称为“上下文学习”（in-context learning）的技术来提高模型在新任务上的性能。他们向模型提供一些新任务的示例作为文本提示，以指导模型的输出。然而，上下文学习并不总是适用于需要逻辑和推理的问题。

MIT的研究人员研究了如何将测试时训练与上下文学习结合使用，以提高在这些挑战性任务上的性能。测试时训练涉及使用少量特定于手头任务的新数据来更新一些模型参数，即它用于进行预测的内部变量。

研究人员探索了测试时训练如何与上下文学习相互作用。他们研究了可以最大限度地提高通用LLM性能的设计选择。

Mehul Damani表示：“我们发现测试时训练是一种更强大的学习形式。虽然简单地提供示例可以适度提高准确性，但实际使用这些示例更新模型可以带来显着更好的性能，尤其是在具有挑战性的领域。”

上下文学习需要一小组任务示例，包括问题及其解决方案。研究人员使用这些示例来创建测试时训练所需的特定于任务的数据集。

为了扩大此数据集的大小，他们通过稍微更改示例中的问题和解决方案来创建新的输入，例如水平翻转一些输入数据。他们发现，在新的数据集的输出上训练模型可以带来最佳性能。

此外，研究人员仅使用一种称为低秩适应的技术更新了少量模型参数，这提高了测试时训练过程的效率。

实际应用中的测试时训练

简化流程是关键，因为测试时训练是按实例使用的，这意味着用户需要为每个单独的任务执行此操作。对模型的更新只是暂时的，并且模型在做出预测后会恢复到其原始形式。

Akyürek补充说，通常需要不到一分钟的时间来回答查询的模型可能需要五到十分钟才能通过测试时训练提供答案。

他说：“我们不想对所有用户查询都这样做，但如果你想让模型很好地解决一个非常困难的任务，这很有用。也可能有些任务对于LLM来说太具有挑战性，如果没有这种方法就无法解决。”

实验结果

研究人员在两个极其复杂的问题的基准数据集（例如IQ难题）上测试了他们的方法。与仅使用上下文学习的技术相比，它将准确率提高了多达六倍。

涉及结构化模式或使用完全不熟悉类型数据的任务显示出最大的性能改进。

Damani说：“对于更简单的任务，上下文学习可能还可以。但是更新参数本身可能会在模型中发展出一种新技能。”

未来展望

展望未来，研究人员希望利用这些见解来开发不断学习的模型。

长期目标是LLM，给定一个查询，它可以自动确定是否需要使用测试时训练来更新参数，或者是否可以使用上下文学习来解决任务，然后实施最佳测试时训练策略，而无需人工干预。

这项工作得到了MIT-IBM Watson AI实验室和国家科学基金会的支持。

总的来说，MIT的这项研究为提高LLM在复杂任务中的适应性和准确性提供了一种有前景的方法。通过战略性地应用测试时训练，LLM可以更好地适应新的和不熟悉的任务，从而在各个领域实现更广泛的应用。