并行智能体：AI性能加速的新范式

在人工智能领域，我们见证了AI能力通过更多训练数据、训练时计算和测试时计算而不断提升。如今，并行智能体作为一种新兴技术方向，正在成为进一步扩展和改进AI性能的关键手段。本文将深入探讨并行智能体如何改变AI系统的运作方式，以及它们为何能在保持效率的同时提供更强大的性能。

并行智能体的崛起

传统上，AI模型的性能与数据量和训练计算量呈可预测的规律增长。而随着推理模型和智能体工作流程的发展，测试时计算进一步提升了AI的表现能力。然而，这些方法往往需要更长的处理时间。并行智能体则提供了一条既能改善结果又不会让用户长时间等待的全新路径。

推理模型通常是顺序生成标记(token)的，运行时间可能很长。同样，大多数智能体工作流程最初也是以顺序方式实现的。但随着每个token的LLM价格持续下降，这些技术变得实用可行，而产品团队也希望更快地向用户提供结果，因此越来越多的智能体工作流程正在被并行化。

当前，许多研究智能体能够同时获取多个网页并并行检查其文本内容，从而尝试更快地合成深入的研究报告。这种方法显著提高了信息处理效率，使研究人员能够在更短的时间内完成复杂的分析任务。

一些智能体编程框架允许用户编排多个智能体同时处理代码库的不同部分。例如，通过使用git worktrees，开发人员可以实现多个智能体协同工作，每个智能体专注于代码库的不同模块，从而大幅提升开发效率。

一个迅速发展的智能体工作流程设计模式是让计算密集型智能体工作数分钟或更长时间来完成一项任务，同时让另一个智能体监控第一个智能体并向用户提供简要更新，以保持信息畅通。从这个模式出发，很容易过渡到并行智能体架构，即背景智能体持续工作，而UI智能体保持用户知情，并可能将异步用户反馈路由到其他智能体。

对于人类管理者来说，将复杂任务（如构建复杂的软件应用程序）分解为更小的任务，让人类工程师并行工作，已经是一项挑战；扩展到大量工程师则尤其困难。同样，为并行智能体分解任务也具有挑战性。

然而，LLM推理成本的下降使得使用更多的token变得值得，而并行使用这些token可以在不显著增加用户等待时间的情况下实现这一目标。这种成本效益的转变为并行智能体的大规模应用创造了条件。

斯坦福大学的Ryan Ehrlich等人发表的"CodeMonkeys: Scaling Test-Time Compute for Software Engineering"研究展示了并行代码生成如何帮助探索解决方案空间。这种方法不仅提高了代码生成的效率，还增强了结果的质量和多样性。

Junlin Wang提出的混合智能体(mixture-of-agents)架构是一种组织并行智能体的 surprisingly 简单方法：让多个LLM提出不同的答案，然后让聚合器LLM将它们组合成最终输出。这种方法既保持了并行处理的高效性，又确保了输出的一致性和质量。

并行智能体领域仍有大量研究和工程工作需要探索，以确定如何最好地利用这一技术。我相信，能够有效并行工作的智能体数量——就像能够有效并行工作的人类一样——将会非常高。

随着技术的不断成熟，我们可以预见并行智能体将在更多领域发挥关键作用，从科学研究到软件开发，从内容创作到决策支持。这种技术不仅会提高AI系统的效率，还将开启新的应用可能性，推动人工智能向更高级别的发展。

对于希望采用并行智能体技术的组织，以下几点值得考虑：

并行智能体代表了AI系统架构的一次重要演进，它通过允许多个智能体同时工作，在保持用户等待时间可控的同时显著提升AI系统的性能。随着LLM推理成本的持续下降和技术的不断成熟，并行智能体有望在各个领域带来革命性的变化。

对于AI研究人员和从业者来说，现在正是探索并行智能体潜力的关键时期。通过结合前沿研究成果和实践经验，我们可以构建更高效、更强大的AI系统，为用户创造更大价值。正如Andrew在文中所强调的，"继续构建！"——并行智能体的时代已经到来，它将为AI的发展开辟全新的可能性。