DisCIPL：小语言模型协作解决复杂推理任务的新突破

在人工智能领域，语言模型(LMs)在图像生成、问答和简单数学计算等任务上取得了显著进步，但与人类在复杂推理任务上的能力相比仍有明显差距。MIT计算机科学与人工智能实验室(CSAIL)的研究人员近日推出了一种创新方法——"Distributional Constraints by Inference Programming with Language Models"(简称DisCIPL)，通过让大型语言模型规划策略，将具体工作分配给多个小型模型，实现了效率与准确性的双重突破。

语言模型的推理困境

当前的语言模型在处理开放性且需遵循严格规则的任务时表现欠佳，无论是解决高级谜题、设计分子还是撰写数学证明，这些系统往往难以自主完成任务。它们更擅长向用户提供问题解决思路，而非实际执行。

以数独游戏为例，人类玩家能够轻松遵循"每行、每列和每个3×3宫格内数字1-9不重复"的规则，而AI系统要么无法独立填充数字，要么效率低下。这种困境源于语言模型在考虑多种可能性的同时遵循约束条件的局限性：小型模型难以可靠完成此类任务，而大型语言模型(LLMs)虽然有时能够胜任，尤其是那些针对推理任务优化的模型，但它们响应时间长且消耗大量计算资源。

DisCIPL框架：协作推理的新范式

面对这一挑战，MIT CSAIL的研究人员开发了一种协作方法，其中LLM负责规划，然后将策略的具体执行工作分配给多个小型模型。他们的方法使小型模型能够提供比OpenAI的GPT-4o等顶级LLM更准确的响应，接近OpenAI的o1等专业推理系统的精度，同时在效率上优于两者。

DisCIPL框架的工作原理类似于为公司特定项目进行外包：用户提供请求给"主管"模型，该模型仔细考虑如何完成项目。然后，LLM以清晰的方式将这些指令和准则传达给较小的模型，并在必要时纠正跟随模型的输出——例如，将不适合诗歌的表述替换为另一个模型提供的更好选项。

DisCIPL工作原理 图：DisCIPL框架中，大型语言模型规划任务策略并指导多个小型模型协作完成复杂推理任务

LLaMPPL：模型间的共同语言

LLM通过名为"LLaMPPL"的编程语言与其跟随模型通信。这是MIT概率计算项目在2023年开发的程序，允许用户编码特定规则，引导模型获得期望结果。例如，LLaMPPL可通过在指令中纳入特定语言的规则来生成无错误的代码。

"写一首八行诗，每行恰好八个字"等指令被编码在LLaMPPL中，使小型模型能够为答案的不同部分做出贡献。这种统一的语言框架确保了不同规模模型之间的有效协作。

实验结果：小模型组合的强大力量

研究人员在写作和推理实验中使用GPT-4o作为"规划LM"，多个Llama-3.2-1B模型作为跟随模型，每个模型负责填充响应中的一个单词(或标记)。这种集体方法与三种替代方案进行了比较：仅使用Llama-3.2-1B的基线系统、单独工作的GPT-4o，以及帮助ChatGPT处理更复杂问题的行业领先o1推理系统。

在需要遵循明确规则的任务中，如"写一个恰好18个单词的句子，其中第四个单词必须是'格拉斯哥'，第八个应该是'在'，第十一个必须是'和'"，DisCIPL系统表现出色，能够生成连贯的输出，准确性和连贯性与o1相当。

效率与成本的显著优势

实验还揭示了DisCIPL关键组件比最先进系统便宜得多。例如，OpenAI的o1等现有推理模型通过文本进行推理，而DisCIPL通过编写Python代码进行"推理"，这更加紧凑。研究人员发现，与o1相比，DisCIPL的推理缩短了40.1%，成本节约了80.2%。

DisCIPL的效率提升部分来自于使用小型Llama模型作为跟随模型，这些模型每标记的成本比 comparable 推理模型便宜1000到10000倍。这意味着DisCIPL更具"可扩展性"——研究人员能够以一小部分成本并行运行数十个Llama模型。

真实世界任务中的出色表现

CSAIL研究人员表示，这些发现并非唯一的惊喜。他们的系统在实际任务中也表现良好，如制作食材清单、规划旅行行程和编写有字数限制的资助提案。与此同时，GPT-4o难以处理这些请求，在写作测试中，经常无法将关键词放在句子的正确位置。而仅使用跟随模型的基线系统在所有方面基本垫底，因为它在遵循指令方面存在困难。

"在过去的几年里，我们已经看到一些令人印象深刻的结果，这些方法使用语言模型通过用代码表示来'自动形式化'数学和机器人问题，"高级作者Jacob Andreas表示，他是MIT电气工程与计算机科学副教授和CSAIL首席研究员。"我认为这篇论文最令人兴奋的是，我们现在可以使用LM来自动形式化文本生成本身， enabling 我们在其他领域看到的相同类型的效率提升和保证。"

未来发展与扩展方向

研究人员计划将此框架扩展为更完全递归的方法，可以使用相同的模型作为领导者和跟随者。Grand补充说，DisCIPL可以扩展到数学推理任务，在这些任务中答案更难验证。他们还打算测试系统满足用户模糊偏好的能力，而不是遵循硬约束，因为这些约束不能如此明确地在代码中概述。

从更长远来看，团队希望使用尽可能大的可用模型，尽管他们指出此类实验计算成本高昂。

行业专家评价

加州大学伯克利分校助理教授Alane Suhr(未参与该研究)表示："看到标准语言模型推理的新替代方案真的令人兴奋。这项工作邀请采用新的语言建模和LLM方法，通过并行化显著减少推理延迟，需要比当前LLM少得多的参数，甚至比标准串行推理提高任务性能。这项工作还提供了探索模型输出的透明性、可解释性和可控性的机会，这仍然是这些技术部署中的一个巨大开放问题。"

研究团队与支持

这项研究由MIT博士生Gabriel Grand领导，他与Jacob Andreas、Joshua Tenenbaum教授、Vikash Mansinghka和耶鲁大学助理教授Alex Lew共同撰写了论文。研究人员于10月在语言建模会议上展示了这项工作，并于11月在IVADO的"部署自主代理：经验教训、风险和现实影响"研讨会上进行了介绍。

这项工作部分得到了MIT智能探索计划、Siegel家族基金会、MIT-IBM Watson AI实验室、斯隆研究奖学金、Intel、空军科学研究办公室、国防高级研究计划局、海军研究办公室和国家科学基金会的支持。

技术意义与行业影响

DisCIPL框架的推出标志着语言模型推理能力的重要突破。通过将大型模型的规划能力与小模型的执行效率相结合，这一方法为解决AI领域的计算效率与性能平衡问题提供了新思路。随着AI应用日益普及，能源消耗问题日益突出，DisCIPL展示的"更少计算资源，更高推理精度"的模式，可能成为未来语言模型发展的重要方向。

对于企业而言，这一技术意味着可以在不牺牲性能的情况下降低AI部署成本，使更多组织能够负担得起高质量的AI服务。对于研究社区，DisCIPL开辟了探索模型协作、并行推理和约束满足的新途径，可能催生更多创新应用和算法优化方法。

随着研究人员计划将这一框架扩展到更完全递归的方法和更广泛的任务类型，我们可以期待看到语言模型在复杂推理、创造性任务和实际应用中的能力进一步提升，为人工智能的发展开辟新的可能性。