Scaling Large Language Model-based Multi-Agent Collaboration
基本信息
- 标题: Scaling Large Language Model-based Multi-Agent Collaboration
- 第一作者: Chen Qian (Tsinghua University)
- 研究团队: tsinghua_university (Chen Qian, Zihao Xie, Yi Fei Wang, Wei Liu, Kunlun Zhu, Hanchen Xia, Yufan Dang, Zhuoyun Du, Weize Chen, Zhiyuan Liu, Maosong Sun), peng_cheng_laboratory (Cheng Yang)
- 会议/期刊: ICLR 2025
- 代码: https://github.com/OpenBMB/ChatDev/tree/macnet
- PDF 文件: [Scaling Large Language Model-based Multi-Agent Collaboration](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260507_scaling_large_language_model_multi_agent_collaboration.pdf)
研究摘要
近年来,由大型语言模型(LLM)驱动的自主智能体(autonomous agents)取得了突破性进展,而多智能体协作(multi-agent collaboration)作为一种新兴范式,已经展现出超越单个智能体能力的巨大潜力。通过交互式环境中的迭代反思和精炼,多个智能体能够集合各自的专长,产生比任何单一智能体更优质的输出。然而,现有研究大多聚焦于少数几个智能体(通常少于十个)的协作机制设计,对于"持续增加智能体数量是否能带来类似神经缩放定律(neural scaling law)的性能提升"这一问题,学界尚未给出系统性的回答。本文正是在这一知识空白处展开了深入的探索。
这篇论文的核心洞察极具启发性:既然增加神经网络中的神经元数量能够带来性能提升,那么增加协作智能体的数量是否也能产生类似的"协作缩放效应"?为了回答这个问题,作者们提出了 MACNET(Multi-Agent Collaboration Network),一个利用有向无环图(DAG)组织智能体并通过拓扑编排实现交互推理的可扩展框架。MACNET 的创新性体现在三个层面。首先,在网络构建层面,系统采用功能二分(functional bipartition)的架构——将智能体划分为监督型评论家(critic)和服从型执行者(actor),分别部署在图的边和节点上,既实现了角色专业化,又从根本上防止了信息回环。其次,在交互推理层面,系统遵循拓扑排序(topological ordering)建立有序交互准则,仅让精炼后的产物(artifact)而非完整对话历史在网络中传播,有效抑制了上下文爆炸。第三,在记忆控制层面,系统采用长短时记忆结合的策略,确保上下文长度从随智能体数量的平方增长降至线性增长。
实验结果揭示了若干令人瞩目的发现。MACNET 能够有效支持超过一千个智能体的协作,且不规则拓扑(irregular topologies)出人意料地优于规则拓扑(regular topologies)。更重要的是,作者们识别出了一条"协作缩放定律"(collaborative scaling law):整体性能随智能体数量增加呈现 logistic 增长模式,且协作涌现(collaborative emergence)比传统神经涌现(neural emergence)在更小的规模上就会发生。这一发现暗示着,在资源受限无法大规模重训练基础模型时,通过推理阶段的程序化思考(inference-time procedural thinking)来扩展智能体协作,可能是一条提升智能水平的"捷径"。这项工作不仅为多智能体系统的规模化部署提供了理论基础和工程方案,也为理解集体智能的涌现机制开辟了新的研究视角。
理论框架
MACNET 的理论根基深植于两个学术脉络的交汇处:神经缩放定律(neural scaling law)的研究传统和复杂网络(complex networks)的理论体系。
神经缩放定律是近年来深度学习领域最具影响力的经验规律之一。Kaplan 等人(2020)发现,充分训练的神经网络的性能与模型参数量、数据集规模和计算量之间存在幂律缩放关系。Muennighoff 等人(2024)进一步扩展了这一规律。然而,这条定律主要描述的是训练阶段的扩展效应——增加神经元、增加数据、增加训练时间。本文作者敏锐地意识到,这一规律尚未被系统性地拓展到推理阶段的多智能体协作场景。在推理阶段,每个 LLM 智能体可以被视作一个"宏观神经元",它们之间的协作交互构成了一个更高层次的计算网络。这种视角转换的深刻之处在于,它将传统的"训练时神经元协作"与"推理时智能体协作"并置,提出二者可能遵循相似的规律但具有本质的差异。
复杂网络理论为 MACNET 提供了组织结构的设计语言。从 Watts & Strogatz(1998)的小世界网络到 Barabási & Albert(1999)的无标度网络,复杂网络研究揭示了拓扑结构如何影响信息传播效率和系统整体行为。本文将这一理论资源引入多智能体系统,提出了三种基本拓扑类型——链(chain)、树(tree)和图(graph)——并进一步细分为六种代表性变体。链拓扑类似于软件工程中的瀑布模型,线性排列智能体交互;树拓扑允许智能体沿独立方向分支交互,包括更"宽"的星形(star)和更"深"的树形;图拓扑支持任意交互依赖,包括全连接网格(mesh)、MLP 形状的分层拓扑(layer)和不规则随机拓扑(random)。这种分类体系不仅覆盖了复杂网络和程序推理文献中最广泛研究的拓扑结构,也为实验比较提供了系统性的框架。
MACNET 的核心数学形式化建立于有向无环图(DAG)之上。设网络为
功能二分架构是 MACNET 的另一项核心理论创新。每个节点
拓扑排序作为交互推理的控制机制,其理论基础来自 Kahn(1962)的经典算法。对于网络
记忆控制的理论分析展示了工程智慧。在未受控的情况下,网格结构中汇点智能体(sink agent)的上下文长度随智能体数量
技术架构
MACNET 的技术架构可以用"图驱动的协作编排"来概括。整个系统从网络构建开始,经历交互推理、记忆控制和产物聚合三个阶段,最终输出任务产物。
网络构建阶段的核心任务是将多个智能体组织成有效的协作拓扑。系统利用基本结构构建非确定性拓扑:二叉树、宽度和深度平衡的分层结构、以及通过从网格中移除边同时保持连通性来构建的随机结构。默认情况下,系统采用约四个节点的拓扑,与多智能体基线方法对齐。智能体化操作
交互推理阶段遵循拓扑排序建立的顺序。对于每条边连接的一对相邻智能体,系统启用双智能体多轮交互模式。具体而言,设
记忆控制阶段的技术实现尤为精巧。系统采用双重记忆机制:短期记忆捕获每次交互中的工作记忆,确保上下文感知决策;长期记忆则仅保留当前对话的最终产物,而非完整的对话历史。这意味着非产物上下文(例如产物之前的详细分析过程)对后续智能体不可见。这种"遗忘"机制的设计哲学是:产物已经编码了所有必要的决策信息,而过程信息只会增加噪音和冗余。当产物在发散节点传播时,它会分叉到多个分支;当产物在汇聚节点合并时,系统通过分层聚合(hierarchical aggregation)整合多个入站产物的优势,生成一个"非线性"强度聚合的产物。
产物流动的动力学可以这样理解:原始任务指令从源节点进入网络,沿着拓扑路径逐步被各个智能体对精炼、扩展、修正。在链拓扑中,产物经历一系列顺序改进,每个智能体在前任的基础上添加自己的专长。在星形拓扑中,原始产物同时分发给多个并行智能体进行独立改进,然后汇聚整合。在随机拓扑中,产物通过小世界捷径在网络中快速传播,"陌生"智能体通过短路径直接交换信息,减少了远距离信息丢失的风险。这种流动动力学使得 MACNET 不仅仅是多个智能体的简单集合,而是一个具有涌现计算能力的分布式系统。
在实现层面,系统使用 GPT-3.5 进行交互推理,在功效和效率之间取得平衡。每次迭代交互限制为三轮交换。这种限制既防止了对话无限延伸,又保留了足够的交互深度来进行有意义的反思和精炼。实验中还使用了开源模型进行验证,展示了框架对底层 LLM 的灵活性。
实验评估
MACNET 的实验设计体现了对"全面性"和"揭示性"的双重追求。作者们在四个异构基准上评估了系统性能,覆盖了从封闭域逻辑推理到开放域创意写作的多种任务类型。
MMLU(Hendrycks et al., 2021)是一个涵盖多学科和难度的逻辑推理评估集,使用多选题形式测量通用世界知识和逻辑推理能力。HumanEval(Chen et al., 2021)是函数级代码生成的广泛认可基准,测量基本编程技能。SRDD(Qian et al., 2024c)整合了来自主流真实应用平台的复杂文本化软件需求,涉及需求理解、系统设计、代码生成和测试,评估完整性、可执行性和一致性。CommonGen-Hard(Madaan et al., 2023)测试使用离散概念生成连贯句子的能力,评估语法、流畅性、上下文相关性和逻辑一致性。这四个基准共同构成了对 MACNET 多维能力的严格检验。
基线选择经过精心考量,覆盖了从单智能体到多智能体的多种范式。COT(Wei et al., 2022b)赋予 LLM 生成连贯推理步骤的能力,是单智能体"过程感知思考"的代表。AutoGPT(Richards, 2023)采用多步规划和工具增强推理,将复杂任务分解为链式子任务。GPTSwarm(Zhuge et al., 2024)将智能体群体形式化为计算图,节点为手动定制的函数,边促进信息流动。AgentVerse(Chen et al., 2024d)动态组装专家智能体团队,采用多智能体语言交互来自主反思和精炼产物。这些基线代表了当前多智能体系统的最先进方法。
表1展示了核心结果。链结构 MACNET(MACNET-CHAIN)在 MMLU 上达到 0.6632,显著优于所有基线(COT 0.3544、AutoGPT 0.4485、GPTSwarm 0.2368、AgentVerse 0.2977)。在 SRDD 上,MACNET-CHAIN 达到 0.8056,同样大幅领先。这种显著提升源于链结构促进了程序性思考过程,产物被不断反思和精炼,有效缓解了先前的不准确或幻觉。在 HumanEval 上,MACNET-CHAIN 的 0.3720 低于 AgentVerse 的 0.7256 和 GPTSwarm 的 0.4969,这可能是因为代码生成任务对单轮输出的准确性要求极高,而多轮精炼可能引入累积性错误。在 CommonGen-Hard 上,星形(0.7382)和树形(0.7718)拓扑显著优于链形(0.5903),表明创意写作任务受益于发散式结构,多个智能体从不同角度进行头脑风暴能产生更丰富的产物。
拓扑比较揭示了深刻的结构-功能关系。从密度视角看,交互密度与平均性能正相关:全连接网格(0.6316)优于中等密度的树(0.6015),树又优于稀疏链(0.6078——注意链的"质量"指标是平均值,在某些具体任务上可能更高)。从形状视角看,不规则随机拓扑出人意料地表现优异,平均质量达到 0.6522,仅次于星形的 0.6267。这一"反直觉"现象的可能解释是:过度密集的交互可能使智能体信息过载,阻碍有效反思;而随机拓扑的小世界特性——短平均路径长度和高聚类系数——通过残差连接般的捷径将"陌生"智能体变为"熟人",减少了远距离产物不可见的可能性。此外,随机拓扑消耗的时间比网格拓扑少约 51.92%,在效率和效果之间取得了最佳平衡。
| 方法 | MMLU | HumanEval | SRDD | CommonGen | 平均质量 |
|---|---|---|---|---|---|
| COT | 0.3544† | 0.6098† | 0.7222† | 0.6165† | 0.5757† |
| AutoGPT | 0.4485† | 0.4809† | 0.7353† | 0.5972 | 0.5655† |
| GPTSwarm | 0.2368† | 0.4969† | 0.7096† | 0.6222† | 0.5163† |
| AgentVerse | 0.2977† | 0.7256† | 0.7587† | 0.5399† | 0.5805 |
| MACNET-CHAIN | 0.6632 | 0.3720 | 0.8056 | 0.5903 | 0.6078 |
| MACNET-STAR | 0.4456† | 0.5549† | 0.7679† | 0.7382† | 0.6267 |
| MACNET-TREE | 0.3421† | 0.4878† | 0.8044 | 0.7718† | 0.6015 |
| MACNET-MESH | 0.6825 | 0.5122† | 0.7792† | 0.5525† | 0.6316† |
| MACNET-LAYER | 0.2780† | 0.4939† | 0.7623† | 0.7176† | 0.5629† |
| MACNET-RANDOM | 0.6877 | 0.5244† | 0.8054 | 0.5912 | 0.6522† |
协作缩放定律的发现是本文最具理论冲击力的贡献。作者从 20 个节点(回归单智能体变体)到 26 个节点(网格网络中超过一千个智能体)进行指数级扩展。如图 7 所示,缩放过程最初增长缓慢,然后快速改善,最后达到饱和点,整体呈现 sigmoid 变体函数形态:
其中
交互维度的分析揭示了涌现的微观机制。在小规模网络(
案例研究
论文通过软件开发的典型案例深入剖析了协作涌现的微观机制。作者选择了一个分层拓扑(layer topology)应用于 SRDD 数据集,这是多维度改进密集发生的代表性场景。
在这个案例中,产物是一个完整的软件仓库,包括需求分析、系统设计、代码生成和测试。作者将智能体交互中讨论的方面分为五类:语法错误、运行时错误、逻辑错误、未满足需求和非错误改进。每个主类别包含多个子类别。图 8 展示了交互方面的总数及其详细分布。内圈为一级方面,外圈为二级方面,长尾布局用于可视化尾部方面。
在较小拓扑(20-23 个节点)中,交互密度限制讨论约为一打二级方面,产物改进相对粗糙。随着网络扩展(24-26 个节点),交互密度二次增长,导致方面数量突然增加到数十个。这种"方面爆发"现象与协作涌现直接对应——当足够多的智能体参与协作时,它们能够从更多维度审视产物,捕捉到小规模网络中无法发现的细微问题。
产物长度的变化同样揭示了规模效应。当从 20 扩展到 24 个节点时,产物 token 长度增加了 7.51 倍。这种增长并非简单的冗余膨胀,而是能力的实质性扩展:更长的产物能够整合详细需求、性能优化和其他高级因素,涵盖短产物无法实现的能力。这得益于图的自然发散和汇聚拓扑,使产物能够进行强度聚合的精炼传播。
反向拓扑的比较提供了方向性的深刻洞察。如图 6 所示,仅仅反转特定拓扑的边方向就会导致显著的性能退化。发散拓扑(子节点多于父节点)大幅优于其汇聚对应物。直觉上,产物传播在发散结构中平滑分叉,每个智能体从不同角度讨论产物;而在汇聚节点聚合多个产物则更具挑战性,凸显了将多样性整合为统一产物的复杂度。因此,为最小化聚合退化,建议采用最大化发散、最小化汇聚的拓扑。
这些案例共同揭示了一个深层原理:多智能体协作的价值不仅在于"更多人在看",更在于"更多维度的审视"。每个智能体带来独特的视角和专长,当这些视角通过网络拓扑结构化地组合时,产物经历了从单一维度到多维度的质变。这种质变无法通过简单的多数投票或 best-of-N 采样来实现——它们缺乏智能体之间的相互依赖交互,而正是这种交互使得不同维度的改进能够级联和复合。
综合价值与局限
MACNET 的理论贡献在于它首次系统性地探索了多智能体协作的缩放规律,并发现了与神经缩放定律既有联系又有本质差异的"协作缩放定律"。这一发现为"如何在不重训练基础模型的情况下提升 AI 系统能力"这一工程命题提供了全新的答案:通过推理阶段的智能体协作扩展。论文提出的 DAG 拓扑编排框架、功能二分架构和记忆控制机制,共同构成了一套可扩展、可解释、可泛化的多智能体协作基础设施。
从实践角度看,MACNET 具有广泛的应用潜力。软件开发中的需求分析-设计-编码-测试流程天然适合链拓扑;创意写作中的头脑风暴-起草-修订流程受益于星形或树形拓扑;科学发现中的假设生成-实验设计-数据分析-论文撰写可能更适合随机拓扑。框架的灵活性意味着用户可以根据任务特性选择最优拓扑,而无需为每个任务定制全新的多智能体系统。
论文的优势在于其概念的经济性和发现的冲击力。"协作缩放定律"的发现不仅是一个经验规律,更是一个范式转换的宣言——它暗示着智能的扩展路径不止于模型训练。DAG 拓扑的使用、功能二分的设计和记忆控制的分析,都体现了将已知理论工具巧妙组合以解决新问题的工程智慧。实验的广度(四个异构基准)和深度(从 20 到 26 个节点的指数级扩展、超过一千个智能体的验证)为结论提供了坚实的支撑。
然而,这项工作也存在值得关注的局限。首先,系统目前仅使用 GPT-3.5 进行交互推理,尚未在更强的模型(如 GPT-4、Claude-3)上验证缩放规律是否依然成立。更强的基础模型可能已经内置了更多维度的推理能力,可能改变协作的边际收益曲线。其次,实验中的"规模"以节点数衡量,但实际智能体数量还取决于边密度——网格拓扑 26 个节点意味着超过一千个智能体,而链拓扑 26 个节点仅意味着约 50 个智能体。这种度量方式的一致性值得商榷。第三,虽然论文展示了不规则拓扑的优势,但未提供自动搜索最优拓扑的算法,用户仍需手动选择或尝试不同配置。第四,三轮回交互的限制在某些复杂任务上可能不足以进行深度反思,增加交互轮数可能改善性能但也会增加成本。最后,产物长度随规模指数增长(7.51 倍)可能带来可用性问题——过长的产物可能超出用户的处理能力和注意力范围。
从更宏观的视角看,MACNET 将传统的"训练时扩展"(scaling during training)延伸到了"推理时扩展"(scaling during inference),这是 AI 系统设计理念的重要演进。如果协作缩放定律在不同任务和模型上得到广泛验证,它可能预示着一种新型的 AI 服务范式:不再追求单一超大模型,而是部署大量中等模型的协作网络。这种范式在资源效率、可维护性和隐私保护方面可能具有优势,但也对系统协调、故障恢复和安全监控提出了全新挑战。
延伸阅读与思考
理解 MACNET 需要将其置于多智能体系统和集体智能的学术脉络中。在直接相关工作中,ChatDev(Qian et al., 2024a)展示了多智能体在软件开发中的协作潜力,但主要关注特定领域的应用而非通用框架。MetaGPT(Hong et al., 2024)通过标准化操作流程(SOP)协调多智能体,强调了结构化协作的重要性。AutoGen(Wu et al., 2024)提供了灵活的多智能体对话编程框架,但缺乏对大规模协作的系统研究。AgentVerse(Chen et al., 2024d)动态组装专家智能体,展示了涌现的社会行为,但扩展性有限。本文与这些工作的核心区别在于对"规模效应"的系统探索和 DAG 拓扑的严格形式化。
在神经缩放定律方面,Kaplan 等人(2020)的幂律、Hoffmann 等人(2022)的 Chinchilla 最优训练策略、以及 Schaeffer 等人(2024)对涌现能力的重新审视,构成了理解 MACNET 发现的必要背景。MACNET 的 logistic 增长模式与幂律不同,暗示着多智能体协作可能存在不同于神经元协作的内在限制机制。
在复杂网络方面,Watts & Strogatz(1998)的小世界模型解释了随机拓扑的优势——随机捷径如何将平均路径长度从
未来的研究方向至少包含四个有潜力的维度。第一,自动拓扑搜索:开发算法自动发现给定任务的最优拓扑,而非依赖手动尝试。这可能借鉴神经架构搜索(NAS)的思想,将拓扑视为可优化的超参数。第二,动态拓扑调整:在协作过程中根据实时反馈调整网络结构——例如,当某个智能体持续贡献低价值改进时,是否可以动态绕过它?第三,异构智能体:当前 MACNET 假设所有智能体使用相同的底层 LLM,未来可能需要研究异构模型(如不同规模、不同专长模型)的协作动力学。第四,跨模态扩展:将 MACNET 从纯文本任务扩展到多模态任务(如图像生成、视频编辑),其中产物不再是文本字符串而是复杂的多媒体对象。
最深层的未解挑战或许是:协作缩放定律的极限在哪里?论文指出存在"规模上限",但未精确刻画这一上限由什么决定——是基础模型的能力边界、任务本身的复杂度、还是通信带宽的约束?理解这些极限因素,对于设计未来的 AI 系统架构至关重要。此外,如何在保持协作效益的同时控制计算成本,也是一个现实的权衡问题。如果一千个智能体的协作成本远超一个超大模型的推理成本,那么协作缩放的经济可行性就会受到质疑。
对我而言,这篇论文最发人深省的是它揭示了一个反直觉的现象:在智能体世界中,最优的协作模式不必精确镜像人类社会的组织结构。不规则随机拓扑优于规则网格拓扑的发现,暗示着人造智能系统的最优设计可能不同于自然演化出的社会结构。这引发了一个哲学性问题:如果人类社会的层级化和规则化是长期演化的结果,为什么它在智能体协作中反而次优?一种可能的解释是,人类社会受限于物理 proximity 和认知带宽,而智能体网络不受这些约束——它们可以瞬间与任何其他智能体建立"残差连接",无需通过层级中介。这种"超越人类社会"的设计空间,正是工程化集体智能最令人兴奋的前沿。
笔记创建时间: 2026-05-07
阅读方式: L2 深度阅读
Topics:
- "llm"
- "agent_architecture"
- "workflow_optimization"
- "distributed_systems"
References: - "tsinghua_university"
- "peng_cheng_laboratory"