在人工智能领域,语言模型(LMs)在图像生成、问答和简单数学等任务上取得了显著进步,但面对需要复杂推理的任务时,它们仍然与人类能力存在明显差距。MIT计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种名为"DisCIPL"的创新框架,通过让大语言模型规划任务策略,将工作分配给多个小型模型协作完成,不仅提高了准确性,还大幅提升了效率。
语言模型的推理困境
语言模型在解决高级谜题、设计分子或编写数学证明等需要严格规则约束的开放性任务时表现不佳。这些系统更擅长指导用户如何应对挑战,而非亲自解决问题。例如,尝试与AI玩数独游戏时,模型要么无法自行填入数字,要么效率低下,尽管它可以验证用户填写的正确性。
问题解决需要模型在考虑多种可能性的同时遵循约束条件。小型语言模型无法独立可靠地完成这项任务;大型语言模型(LLMs)有时可以,特别是经过推理任务优化的模型,但它们响应时间长,计算资源消耗大。
DisCIPL:协作推理的新范式
面对这一挑战,MIT CSAIL的研究人员开发了一种协作方法,其中一个大语言模型负责规划,然后将策略工作分配给更小的模型。他们的方法使小型语言模型能够提供比OpenAI的GPT-4o等领先大型语言模型更准确的回答,接近顶级推理系统如o1的精度,同时效率远超两者。

DisCIPL系统使用大模型规划策略,将工作分配给小型模型协作完成
DisCIPL("Distributional Constraints by Inference Programming with Language Models")框架通过让一个"领导者"模型指导多个小型"跟随者"模型,在编写文本摘要、带预算的购物清单和旅行行程等任务中提供精确回答。
工作原理:从规划到执行
DisCIPL的内部工作机制类似于为特定工作雇佣一家公司。用户提供请求给"老板"模型,它仔细考虑如何完成该项目。然后,大语言模型将这些指令和指南清晰地传达给较小的模型。它在需要时纠正跟随者模型的输出——例如,用另一个模型的更好选项替换不适合诗歌的措辞。
大语言模型使用所有模型都理解的语言与其跟随者交流——这是一种用于控制语言模型的编程语言,称为"LLaMPPL"。由MIT概率计算项目于2023年开发,该程序允许用户编码特定规则,引导模型获得期望结果。例如,LLaMPPL可通过在其指令中融入特定语言的规则来生成无错误的代码。
像"写八行诗,每行正好八个字"这样的指令被编码在LLaMPPL中,使小型模型能够为答案的不同部分做出贡献。
实验结果:效率与精度的双重突破
在写作和推理实验中,研究人员使用GPT-4o作为"规划LM",让多个Llama-3.2-1B模型(由Meta开发的小型系统)填充响应的每个单词(或标记)。
这种集体方法与三种 comparable 方法竞争:仅使用Llama-3.2-1B的基线模型、单独工作的GPT-4o,以及帮助ChatGPT处理更复杂问题的行业领先o1推理系统。
规则遵循能力
DisCIPL首先展示了编写遵循明确规则的句子和段落的能力。模型被给予非常具体的提示——例如,写一个正好有18个单词的句子,其中第四个词必须是"Glasgow",第八个应该是"in",第十一个必须是"and"。系统在处理这一请求时表现出色,在保持准确性和连贯性的同时,创造了与o1相似的输出。
成本与效率优势
实验还揭示了DisCIPL的关键组件比最先进的系统便宜得多。例如,虽然OpenAI的o1等现有推理模型通过文本进行推理,但DisCIPL通过编写Python代码进行"推理",这更加紧凑。实际上,研究人员发现,与o1相比,DisCIPL的推理缩短了40.1%,成本降低了80.2%。
DisCIPL的效率提升部分源于使用小型Llama模型作为跟随者,这些模型的每标记成本比 comparable 推理模型便宜1000到10000倍。这意味着DisCIPL更具"可扩展性"——研究人员能够以一小部分成本并行运行数十个Llama模型。
实际任务表现
CSAIL研究人员表示,这些并非唯一令人惊讶的发现。他们的系统在实际任务中也表现良好,如制作配料清单、规划旅行行程和编写有字数限制的资助提案。与此同时,GPT-4o在处理这些请求时遇到了困难,在写作测试中,通常无法将关键词放在句子的正确部分。仅使用跟随者的基线模型在所有方面基本上都排在最后,因为它难以遵循指令。
未来展望与扩展可能
研究人员计划将此框架扩展为更完全递归的方法,可以使用相同的模型作为领导者和跟随者。Grand补充说,DisCIPL可以扩展到数学推理任务,这些任务的答案更难验证。他们还打算测试系统满足用户模糊偏好的能力,而不是遵循硬性约束,这些约束不能如此明确地在代码中概述。
从更长远的角度来看,团队希望使用尽可能大的可用模型,尽管他们指出此类实验计算成本高昂。
行业影响与专家评价
加州大学伯克利分校助理教授Alane Suhr(未参与研究)表示:"看到语言模型推理的新替代方案真的很令人兴奋。这项工作邀请了对语言建模和LLMs的新方法,通过并行化显著减少推理延迟,比当前LLMs需要少得多的参数,甚至比标准串行推理提高任务性能。这项工作还探索了模型输出的透明度、可解释性和可控性,这些技术在部署中仍然是一个巨大的开放问题。"
这项研究由MIT电气工程与计算机科学系副教授、CSAIL主要研究员Jacob Andreas领导,他表示:"在过去几年中,我们已经看到一些令人印象深刻的结果,这些方法使用语言模型通过用代码表示数学和机器人问题来'自动形式化'。我对这篇论文最感到兴奋的是,我们现在可以使用LMs来自动形式化文本生成本身, enabling 我们在其他领域看到的相同类型的效率提升和保证。"
技术细节与实现
DisCIPL框架的核心创新在于其分布式约束推理方法。通过LLaMPPL编程语言,研究人员能够将复杂的推理任务分解为可管理的子任务,每个子任务由专门的小型模型处理。这种方法不仅提高了计算效率,还增强了系统的可扩展性。
在实现过程中,研究人员使用了多个Llama-3.2-1B模型作为跟随者,这些模型虽然规模较小,但在并行处理时能够显著提高整体性能。相比之下,传统的大规模推理模型如o1虽然精度高,但计算成本巨大,限制了其实际应用场景。
结论:AI协作的新时代
DisCIPL系统的开发标志着AI推理领域的一个重要突破。通过结合大语言模型的规划能力和小型模型的执行效率,该方法不仅解决了语言模型在复杂推理任务中的局限性,还为AI系统的能源效率和计算成本提供了新的解决方案。
随着技术的进一步发展和完善,这种协作推理框架有望在更多领域得到应用,从科学研究到商业决策,从教育到医疗诊断。未来,我们可能会看到更多基于这种协作模式的AI系统,它们能够在保持高精度的同时,大幅降低计算资源消耗,使AI技术更加普及和可持续。


