AgentSquare: Automatic LLM Agent Search in Modular Design Space

基本信息

标题: AgentSquare: Automatic LLM Agent Search in Modular Design Space
第一作者: Yu Shang (Tsinghua University)
研究团队: tsinghua_fib_lab
会议/期刊: ICLR 2025 (Under Review)
代码: https://github.com/tsinghua-fib-lab/AgentSquare
PDF 文件: [AgentSquare](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260427_agentsquare_automatic_llm_agent_search.pdf)

研究摘要

大型语言模型（LLM）的迅猛发展催生了无数智能体系统，它们展现出令人惊叹的能力，从解决数学问题到导航网页、提供金融建议，再到辅助医疗决策。然而，当前的研究范式存在一个根本性瓶颈：几乎所有的智能体系统都依赖人工设计，针对特定任务进行定制。这种手工设计的方式不仅耗费大量人力和专家知识，更严重的是，当面对全新任务时，这些专门设计的智能体往往难以适应。正是这一困境，促使清华大学的研究团队提出了一个全新的研究方向——模块化LLM智能体搜索（Modularized LLM Agent Search, MoLAS），并在此基础上构建了AgentSquare这一创新框架。

AgentSquare的核心思想是将现有LLM智能体设计抽象为一个模块化设计空间，包含四个基本模块：规划（Planning）、推理（Reasoning）、工具使用（Tool Use）和记忆（Memory）。这四个模块通过标准化的输入输出接口相互连接，形成一个统一的设计范式。基于这一模块化设计空间，AgentSquare引入了两种核心机制——模块进化（module evolution）和模块重组（module recombination），能够自动搜索和优化LLM智能体架构。为了进一步加速搜索过程，研究团队还设计了一个性能预测器（performance predictor），利用上下文替代模型来跳过那些没有前景的智能体设计。

在横跨六个基准测试的综合实验中，涵盖网页交互、具身智能、工具使用和游戏应用等多样化场景，AgentSquare展现出卓越的性能。实验结果表明，AgentSquare发现的智能体在性能上显著超越了所有已知的人工设计，平均性能提升达到17.2%。更为关键的是，AgentSquare不仅能发现性能更优的智能体，还能生成人类可解释的设计洞察（design insights），帮助研究者深入理解智能体架构与任务性能之间的关系。这一工作标志着从研究单个LLM智能体设计向研究模块化设计空间中智能体演化的重要转变，为整个研究社区整合集体智慧提供了一个全新的平台。

理论框架

AgentSquare的理论根基深深植根于自动机器学习（AutoML）和神经架构搜索（Neural Architecture Search, NAS）的思想传统之中。在深度学习领域，研究人员早已认识到手动设计神经网络架构的局限性，并发展出了一系列自动搜索最优架构的方法。类似地，在代码生成领域，利用大型语言模型进行程序搜索也已成为一个活跃的研究方向。AgentSquare将这种自动设计的理念从神经网络架构和代码生成领域，创造性地迁移到了LLM智能体系统的设计之中。

然而，AgentSquare并非简单地将现有的自动设计方法套用于智能体系统。它的核心理论贡献在于提出了模块化设计空间的概念，这是对现有智能体设计范式的一次深刻重构。传统的智能体设计方法，无论是OPRO和PromptBreeder在提示词空间上的优化，还是ADAS在代码空间上的全面搜索，都存在一个共同的局限：它们缺乏一种标准化的方式来重用和重组来自不同研究工作的成功设计组件。AgentSquare的模块化设计空间通过定义标准化的输入输出接口，解决了这一关键问题。这种标准化不仅使得不同来源的模块可以无缝集成，更重要的是，它为智能体的自动搜索提供了一个结构化、可扩展的理论基础。

在这个模块化设计空间中，一个LLM智能体被形式化为四个模块的组合： $A = (P, R, T, M)$ ，其中 $P$ 表示规划模块， $R$ 表示推理模块， $T$ 表示工具使用模块， $M$ 表示记忆模块。这种形式化定义使得智能体设计问题可以精确地表述为一个优化问题：

\arg max_{P \in P, R \in R, T \in T, M \in M} {Eval}_{d} (P, R, T, M)

这里 ${Eval}_{d} (\cdot)$ 表示在任务 $d$ 上的性能评估函数，而 $P, R, T, M$ 分别代表四个模块的标准化模块池。这个优化问题的本质是在由四个设计维度笛卡尔积定义的解空间中寻找最优的模块组合。值得注意的是，这个解空间是开放且无限扩展的——因为每个模块的类型可以是任何具有标准输入输出接口的代码实现，这为创新性的模块设计留下了充足的理论空间。

AgentSquare的理论框架还包含了对智能体工作流程的深入理解。智能体的运作被建模为一个迭代试错循环：当接收到任务 $d$ 时，规划模块首先将其分解为若干子任务 ${s_{1}, s_{2}, . . ., s_{n}} = P (d, f)$ ，其中 $f$ 是可选的反馈信息。随后，这些子任务依次传递给推理模块处理，推理模块接收子任务描述和反馈信息，输出解决方案 $r_{i} = R (s_{i}, f_{i})$ 。当推理过程遇到内部知识不足时，工具使用模块被激活，从预定义的工具池 $τ$ 中选择合适的工具 $t_{i j} = T (p_{i j}, τ)$ 来辅助问题解决。同时，记忆模块动态地读写记忆数据库 $mem$ ，存储和检索过去的经验。这种工作流程的理论建模不仅清晰地描述了智能体各组件之间的协作关系，更为模块化设计提供了自然的分解依据。

技术架构

AgentSquare的技术架构是一个精心设计的自动搜索系统，它通过交替执行模块进化和模块重组两个核心操作，在庞大的模块化设计空间中高效地探索最优智能体架构。整个系统的核心驱动力是利用LLM自身的推理能力来指导搜索过程，这与传统依赖固定启发式规则的搜索方法形成了鲜明对比。

系统的初始化阶段借鉴了AutoML研究中的重要洞察：良好的初始种群能够显著加速收敛并避免陷入无前景的搜索区域。AgentSquare首先从一个全局经验池 $E = {(P, R, T, M, v)}$ 开始，其中包含了从文献中梳理出的16个经典智能体系统的优秀模块组合及其真实性能评估 $v$ 。这些种子智能体不仅为搜索提供了高质量的起点，更重要的是，它们的模块被提取并标准化后形成了初始的模块池 ${P, R, T, M}$ 。

模块重组操作是AgentSquare应对庞大解空间的第一道利器。考虑到仅通过提示词重写进行探索往往局限于初始状态的邻域，模块重组引入了LLM作为自适应提议者（self-adaptive proposer）。给定当前智能体 $A_{r}^{0} = (P_{0}, R_{0}, T_{0}, M_{0})$ ，LLM提议者 $π_{θ}$ 综合考虑任务描述 $d$ 、现有模块池 ${P, R, T, M}$ 以及已搜索模块组合的历史经验 $E$ ，来提议有前景的新智能体：

A_{r} = π_{θ} ((P_{0}, R_{0}, T_{0}, M_{0}), d, N, P, R, T, M, E)

这一操作通过策略性地替换当前智能体中的某些模块为模块池中的替代方案，产生 $N$ 个子代智能体。例如，一个可能的提议是将原有的推理模块 $R_{0}$ 替换为模块池中的另一个推理模块 $R^{'} \in R$ 。这种基于LLM推理的重组策略相比简单的随机组合或贝叶斯优化等方法具有显著优势，因为它能够利用LLM对任务需求和模块特性的深层理解来进行有方向性的探索。

然而，仅依靠模块重组无法在开放性的模块空间中进行根本性创新——如果最优的模块尚未存在于模块池中，重组操作无论如何组合都无法发现它。为解决这一局限，AgentSquare引入了模块进化操作。这一操作受到FunSearch中迭代式程序搜索思想的启发，利用一个进化元提示（evolutionary meta-prompt）来驱动LLM生成全新的模块代码。模块编程LLM $π_{ξ}$ 联合建模任务描述、现有模块和已评估模块的性能反馈，来产生模块的变体：

A_{e} = π_{ξ} ((P_{0}^{'}, R_{0}^{'}, T_{0}^{'}, M_{0}^{'}), d, N, P, R, T, M, E)

新创建的模块被追加到标准化模块池中，每个新模块都被用来单独变异初始智能体，产生 $N$ 个子代。这些子代在真实环境中进行测试，更新经验池，并选择表现最佳者进入下一轮重组阶段。模块进化与模块重组的交替执行形成了一个强大的搜索循环：重组操作在现有模块的组合空间中进行高效探索，而进化操作则不断扩展模块池的边界，两者相辅相成，确保了搜索的全面性和创新性。

性能预测器是AgentSquare架构中的另一个关键技术组件，它直接回应了智能体评估成本高昂的实际挑战。在AgentSquare的搜索过程中，每一个候选智能体的真实评估都可能消耗数十美元的API成本——例如，在ALFWorld上使用GPT-4o评估一个简单的CoT智能体就需要约60美元。如此高昂的成本使得大规模的智能体搜索在经济上难以为继。性能预测器 $π_{p}$ 通过利用上下文替代模型来解决这一问题：

v^{'} = π_{p} (A^{'}, d, P, R, T, M, E)

给定一个新搜索的智能体 $A^{'}$ ，性能预测器综合考虑任务描述、模块配置和历史经验，预测其性能得分 $v^{'}$ 。在模块重组阶段，新提议的智能体通过性能预测器进行快速筛选，只有被预测为有前景的候选者才会进入昂贵的真实环境评估。实验数据显示，这一预测器的评估成本仅为真实评估的约0.025%，却能够保持与实际性能的强相关性，从而在不牺牲搜索质量的前提下大幅降低了总搜索成本。

实验评估

AgentSquare的实验设计体现了对全面性和公平性的周密考虑。研究团队在六个代表性任务上进行了系统评估，这些任务覆盖了四个关键应用领域：具身智能（ALFWorld和ScienceWorld）、网页交互（WebShop）、工具使用（TravelPlanner和M3ToolEval）以及策略游戏（PDDL）。这种跨领域的评估策略确保了结论的广泛适用性，避免了仅在单一任务类型上验证可能带来的偏差。

在基线选择方面，研究团队精心设计了四类对比方法以确保评估的公正性。第一类是12种手工设计的智能体，包括经典的CoT、CoT-SC、Self-Refine、ToT、StepBack、ThoughtPropagation等推理方法，以及HuggingGPT、Voyager、GenerativeAgents、DEPS、OPENAGI和Dilu等综合性智能体系统。第二类是模块搜索基线，包括随机模块组合和基于贝叶斯优化的模块组合方法。第三类是提示词搜索基线，以OPRO为代表。第四类是智能体搜索基线，即ADAS方法——这是在代码空间上搜索整个智能体系统的最新方法。所有方法在相同条件下进行比较，使用相同数量的少样本示例，确保了实验结果的可比性。

实验结果清晰地展示了AgentSquare的卓越性能。基于GPT-4o的结果显示，AgentSquare在所有六个任务上 consistently 超越了所有对比的12种手工设计智能体。具体而言，相比最佳人工设计，AgentSquare在WebShop上实现了14.1%的性能提升，在ALFWorld上提升26.1%，在ScienceWorld上提升20.5%，在M3ToolEval上提升30.6%，在TravelPlanner和PDDL上均提升6.0%。平均而言，性能提升达到14.1%。这一结果有力地证明了自动搜索方法在发现优秀智能体设计方面的巨大潜力。

与其他搜索方法的比较进一步凸显了AgentSquare的技术优势。相比模块搜索方法（随机组合和贝叶斯优化），AgentSquare在WebShop上平均提升8.4%，在ALFWorld上提升8.1%，在ScienceWorld上提升11.0%，在M3ToolEval上提升12.8%。相比提示词搜索方法OPRO，AgentSquare的优势更为显著。而相比在代码空间上全面搜索的ADAS，AgentSquare在大多数任务上表现更优，同时搜索效率更高——这得益于模块化设计空间带来的结构化搜索优势，以及性能预测器对搜索成本的有效控制。

方法类型	方法	WebShop	ALFWorld	SciWorld	M3Tool	TravelPlanner	PDDL
手工设计	CoT	0.485	0.405	0.697	0.448	0.487	0.542
手工设计	Self-refine	0.461	0.567	0.654	0.442	0.000	0.514
手工设计	OPENAGI	0.506	0.510	0.718	0.322	0.533	0.616
模块搜索	Random	0.533	0.620	0.704	0.438	0.563	0.660
模块搜索	Bayesian	0.549	0.634	0.749	0.502	0.537	0.650
提示搜索	OPRO	0.505	0.380	0.569	0.309	0.523	0.589
智能体搜索	ADAS	0.521	0.543	0.754	0.475	0.373	0.568
AgentSquare	(GPT-4o)	0.607	0.695	0.781	0.524	0.583	0.669

搜索轨迹的可视化分析揭示了AgentSquare与其他方法在收敛行为上的本质差异。AgentSquare展现出稳定且持续的收敛轨迹，在搜索过程中不断涌现出更先进的智能体设计。相比之下，基于模块级搜索的随机组合和贝叶斯优化方法缺乏清晰的搜索方向，而基于提示词级优化的OPRO则受限于有限的修改空间，导致性能改进微小。这些搜索轨迹直观地说明了模块化设计空间的重要性——在适当的抽象层次上进行搜索，能够在探索广度和搜索效率之间取得最佳平衡。

消融实验为理解AgentSquare各组件的贡献提供了深入洞察。在移除模块进化操作后，性能在所有六个任务上都出现了明显下降，这表明模块进化对于发现超越现有设计的新模块至关重要。在移除模块重组操作后，性能下降更为显著，说明模块重组在扩展搜索空间和避免局部最优方面发挥了关键作用。这两种操作的协同效应是AgentSquare成功的核心——模块重组利用现有模块的高效组合实现快速改进，而模块进化则突破现有设计的边界，开拓全新的可能性空间。

性能预测器的有效性通过预测性能与实际性能的相关性分析得到了充分验证。在六个任务上，无论是基于GPT-3.5还是GPT-4o，预测性能与实际测试性能之间都呈现出紧密的线性相关关系。这种高相关性表明，性能预测器能够可靠地筛选出有前景的候选智能体，从而避免了大量无意义的昂贵评估。以ALFWorld为例，使用预测器的评估成本仅为真实评估成本的0.025%，这意味着搜索效率提升了约4000倍。

案例研究

AgentSquare最具启发性的成果之一，是它能够发现具有人类可解释设计洞察的新模块。以ALFWorld任务上的搜索过程为例，AgentSquare最终发现的优秀智能体结合了来自GenerativeAgents的现成记忆模块，以及两个全新创建的模块——TD规划模块和SF-ToT推理模块。这种组合策略体现了AgentSquare的聪明之处：它并非盲目地追求全新设计，而是善于识别和重用已有设计中的精华部分，同时针对特定任务需求开发定制化的创新模块。

SF-ToT推理模块的发现过程尤其值得深入分析。该模块的设计洞察来源于对现有推理方法的系统性反思。研究者观察到，Tree-of-Thoughts（ToT）方法通过生成多条推理路径并进行评估选择，能够有效提升推理质量；Self-Consistency（SC）方法通过生成多个答案并投票表决，增加了结果的可靠性；而Self-Refine方法则通过迭代式自我改进不断优化输出。SF-ToT模块的创新之处在于将这三种方法有机融合：首先利用ToT生成多条推理路径，然后运用SC评估并选择最佳路径，最后通过Self-Refine对选定路径进行迭代式精化。这种层次化的推理策略不仅继承了各组成方法的优势，更通过组合产生了协同效应——多路径生成提供了丰富的候选空间，投票机制确保了选择的鲁棒性，而迭代精化则进一步优化了最终结果。

TD规划模块则展示了另一种设计智慧。该模块采用基于时间线的方法，将任务分解为具有显式时间依赖关系的子任务。与传统的简单任务分解不同，TD模块明确要求考虑动作之间的时序逻辑和依赖关系，确保子任务的安排符合实际执行的先后顺序。这种设计特别适合ALFWorld这类需要按特定顺序完成一系列动作的任务场景。例如，在"先打开冰箱，再取出食材，最后进行烹饪"的任务中，TD模块能够自然地编码这种时序约束，避免产生逻辑上不可行的执行计划。

HTSS推理模块是AgentSquare在WebShop任务上的另一项发现。该模块的设计洞察观察到，Chain-of-Thought和Tree-of-Thoughts等方法通过将任务分解为小步骤来提升推理效果，而Self-Consistency通过多答案投票也展现出潜力。HTSS的创新在于将这些技术整合到一个统一的框架中：生成多路径、评估选择最佳路径、然后基于反馈迭代精化。这种组合策略在WebShop这类需要多步骤决策的在线购物任务中表现尤为出色，因为它能够系统性地探索不同的购物策略，并通过自我修正机制不断优化决策质量。

这些案例共同揭示了一个深刻的设计原则：最优秀的智能体架构往往不是单一技术的极致应用，而是多种互补技术的巧妙组合。AgentSquare的自动搜索能力使得这种组合探索成为可能——它能够跨越不同研究工作的边界，识别出潜在的技术互补性，并创造出人类设计师可能因领域惯性而忽视的创新组合。

综合价值与局限

AgentSquare的理论贡献具有深远的意义。它首次为LLM智能体设计建立了一个形式化的模块化设计空间，将此前分散在各个研究工作中的设计思想统一到一个共同的理论框架之下。这种统一不仅促进了不同研究工作之间的比较和理解，更为未来的智能体设计研究提供了一个清晰的路线图。通过将智能体设计问题转化为模块化组合优化问题，AgentSquare为自动机器学习领域开辟了新的研究疆域，架起了神经架构搜索与智能体架构搜索之间的理论桥梁。

从实践角度看，AgentSquare的影响同样不可忽视。对于智能体系统的开发者而言，AgentSquare提供了一个强大的设计辅助工具，能够自动探索人工设计难以穷尽的设计空间，发现性能更优且成本效益更高的智能体配置。对于研究者而言，AgentSquare生成的设计洞察为理解智能体架构与任务特性之间的关系提供了宝贵线索。更重要的是，AgentSquare的模块化设计空间具有高度的可扩展性——当新的优秀模块被发现时，它们可以被无缝集成到模块池中，供整个社区共享和重用。这种集体累积的设计知识有潜力形成正向飞轮效应，加速整个领域的进步。

然而，AgentSquare也存在值得关注的局限性。首先，其模块化设计空间虽然抽象自对现有智能体系统的全面文献综述，但这种抽象本身可能遗漏某些尚未被充分探索的设计维度。四个基本模块（规划、推理、工具使用、记忆）的划分虽然抓住了当前智能体设计的主流范式，但未来可能出现的新型智能体架构可能超越这一框架。其次，AgentSquare的搜索效率虽然通过性能预测器得到了显著提升，但在某些复杂任务上的搜索成本仍然较高——例如使用GPT-4o在ScienceWorld上搜索的API成本可达42美元。这对于资源有限的研究者或需要频繁调整的应用场景仍然构成挑战。第三，AgentSquare发现的智能体虽然在六个基准测试上表现优异，但这些测试本身可能无法完全代表真实世界应用的复杂性和多样性。在更开放、更动态的实际环境中，自动发现的智能体是否仍能保持鲁棒性，还需要进一步的验证。

从更广的视角审视，AgentSquare也引发了一些深层思考。当智能体设计本身被自动化时，人类设计师的角色将发生怎样的转变？是退居幕后仅提供高层指导，还是与自动系统形成深度协作？AgentSquare给出的初步答案是：人类设计师仍然是不可或缺的——他们定义任务、设定评估标准、解读设计洞察，并在自动系统无法处理的边缘案例中介入。但这种人机协作的具体模式，以及它对未来AI研发流程的深远影响，仍有待更深入的研究。

延伸阅读与思考

AgentSquare的工作建立在一系列重要的前期研究基础之上。在LLM智能体领域，Chain-of-Thought（Wei et al., 2022）解锁了LLM的通用推理能力，Tree-of-Thoughts（Yao et al., 2024）将推理过程从线性链扩展为树形搜索，而Reflexion（Shinn et al., 2024）则引入了语言化的强化学习机制。在记忆机制方面，GenerativeAgents（Park et al., 2023）展示了记忆在模拟人类行为中的关键作用。这些工作共同构成了AgentSquare模块化设计空间的直接来源。在自动设计领域，FunSearch（Romera-Paredes et al., 2024）利用LLM进行数学程序搜索，ADAS（Hu et al., 2024）在代码空间上搜索整个智能体系统，而OPRO（Yang et al., 2024）和PromptBreeder（Fernando et al., 2024）则在提示词空间上进行优化。AgentSquare的独特贡献在于将这些分散的自动设计思想整合到一个统一的模块化框架中，实现了比任何单一方法更强大的搜索能力。

从替代方法的角度看，当前LLM智能体的自动设计存在多个竞争范式。提示词优化方法如OPRO操作简单但搜索空间有限；代码空间搜索方法如ADAS理论上可以发现更灵活的架构但搜索效率较低；多智能体系统优化方法关注智能体间的协作模式而非单个智能体的模块设计。AgentSquare的模块化搜索策略在这些方法之间找到了一个独特的平衡点——它既保持了足够的搜索灵活性，又通过结构化设计空间实现了高效的搜索。

展望未来，AgentSquare开辟了几个富有前景的研究方向。首先是动态模块发现：当前的模块进化操作主要依赖LLM基于提示生成模块代码，未来可以探索更复杂的程序合成技术，如结合代码库检索和程序验证的混合方法。其次是跨任务迁移学习：AgentSquare目前针对每个任务独立进行搜索，但不同任务上的搜索经验可能共享通用的设计模式，如何有效迁移这些经验是一个重要的开放问题。第三是理论分析：当前对模块化设计空间搜索行为的理解主要基于实验观察，缺乏系统的理论分析来刻画搜索复杂度、收敛保证等理论性质。最后是向真实世界应用的扩展：将AgentSquare从标准基准测试推广到更开放、更复杂的实际应用场景，将面临数据获取、评估标准设定、安全性保障等一系列新的挑战。

AgentSquare最令人深思的启示或许是：在AI系统设计的最高层次上，自动化本身正在成为核心能力。当LLM不仅能够执行任务，还能够设计执行任务的智能体时，我们正见证着一种元认知能力的涌现——AI系统开始参与自身的架构设计。这一趋势虽然仍处于早期阶段，但它可能预示着未来AI研发范式的根本性转变。对于这一领域的发展，我最想进一步探索的问题是：随着自动设计能力的不断增强，人类创造力的独特价值将体现在何处？是提出根本性的新问题，还是在伦理和价值判断上的把关？AgentSquare为我们打开了一扇观察这一深层问题的窗口，而答案的探寻将需要整个研究社区的共同努力。

笔记创建时间: 2026-04-27
阅读方式: L2 深度阅读

Topics: