Harnessing Agentic Evolution

Title: Harnessing Agentic Evolution
Authors: Jiayi Zhang, Yongfeng Gu, Jianhao Ruan, Maojia Song, Yiran Peng, Zhiguang Han, Jinyu Xiang, Zhitao Wang, Caiyin Yang, Yixi Ouyang, Bang Liu, Chenglin Wu, Yuyu Luo
Venue: arXiv:2605.13821v1 [cs.AI]
Year: 2026
Pages: 24
PDF: 20260515_harnessing_agentic_evolution.pdf

研究摘要 (Research Summary)

Agentic evolution（智能体进化）作为大语言模型时代解决复杂问题的重要范式，正面临着一场深层次的结构性危机。这一范式的核心思想在于将问题解决重新框架化为一个持续构建与修正候选方案的迭代过程，而非一次性生成最终答案。然而，正如这篇论文所深刻揭示的，现有方法在长期进化搜索中普遍陷入局部最优的困境——无论是基于固定规则的程序化进化（procedure-based evolution），还是依赖通用智能体的自主进化（agent-based evolution），都未能建立一种有效机制来组织和利用持续累积的进化证据。这篇题为 Harnessing Agentic Evolution 的论文正是针对这一根本性问题，提出了一个具有概念突破性的解决方案：将智能体进本身视为一个交互式环境（interactive environment），并引入元编辑（meta-editing）机制来操控驱动未来进化的底层机制，而非仅仅生成下一个候选解。

该研究的核心问题之所以重要，源于智能体进化在当代人工智能应用中的广泛渗透。从程序合成（program synthesis）到科学发现（scientific discovery），从系统优化到智能体自我改进，迭代式生成候选方案、评估反馈并据此调整搜索方向的模式已成为LLM解决复杂任务的标准范式。然而，正如论文所指出，现有的两类主要实现方式各有致命弱点：程序化进化虽然模块化且可复现，但其固定的选择规则、反馈摘要和更新启发式将长期搜索绑定在手动设计的搜索模式上，导致系统反复利用相同的局部模式而无法突破；而基于通用智能体的进化虽然赋予了系统更大的灵活性，但随着候选解、日志、假设和中间文件的不断累积，智能体容易陷入对误导性证据或陈旧假设的过度承诺，产生所谓的"漂移"（drift）现象。更重要的是，这两类方法在进化过程中都累积了丰富的证据——包括候选解、反馈、执行轨迹、失败记录、成本信息和搜索历史——但缺乏一个稳定的接口来组织这些证据并修正驱动未来进化的机制。

这项工作的核心思想贡献在于提出了一种全新的环境化视角（environment formulation）。作者们没有将进化视为一个由固定规则或单一智能体主导的封闭过程，而是将其重新概念化为一个具有过程级状态（process-level state）的交互式环境。在这个环境中，累积的进化上下文构成了环境状态，当前的进化机制（无论是显式的搜索程序还是塑造通用智能体决策的操作上下文）定义了状态转移规则，而一个元智能体（meta-agent）通过编辑这一机制来干预环境的演化。这一视角的深刻性在于它将元层次的控制与对象层次的搜索解耦：元智能体不再直接参与候选解的生成，而是修改控制未来搜索如何进行的"规则"本身。这种机制层面的干预（mechanism-level intervention）为长期进化提供了一种 fundamentally different 的调控方式，使得系统能够在搜索陷入停滞时有能力修改自身的搜索策略，而非仅仅在现有策略下继续采样。

该论文的技术贡献可以概括为三个相互支撑的方面。首先，作者们形式化地定义了智能体进化作为交互式环境的数学框架，将累积的进化上下文定义为状态，将进化机制定义为转移规则，并引入了元智能体的观察和编辑动作。其次，他们设计了AEVO（Agentic Evolution via meta-editing），一个带有Harness（约束框架）的元编辑系统，该系统标准化了进化工作空间、保护了评估器的完整性、记录了每次评估的候选解历史，并向元智能体暴露过程级信息。最后，他们在两种截然不同的进化形式——程序化进化和基于智能体的进化——上实例化了同一框架，并通过大量实验证明了其跨范式的有效性。这种跨形式的统一视角是尤其难得的，因为它表明无论是修改显式的选择-优化-评估循环，还是调整通用智能体的技能、目标和工具集，都可以被纳入同一套元编辑语言中。

实验结果显示了该方法的显著优势。在标准智能体和推理基准测试（Terminal-Bench和ARC-AGI-2）上，AEVO相对于五个进化基线取得了平均26%的相对改进；在三个开放式优化任务（circle_packing_26、autocorrelation_second和Kernel优化）上，AEVO在相同迭代预算下达到了最先进的性能，其中在Kernel优化任务上实现了1138个周期的结果，这是目前已知的最佳结果。这些结果有力地支持了论文的核心论点：长期进化的改进不仅来自于更强的候选解生成器，更来自于对搜索如何进行本身的机制层面干预。

从更广泛的影响来看，这项工作为智能体进化的自我改进开辟了新的可能性。它提出了一种"进化之进化"的元层次结构，使得系统能够反思自身的搜索过程并根据累积的经验调整其策略。这不仅对提高现有系统的性能具有重要意义，更为理解智能体系统中"自我模型"和"元认知"的实现提供了工程上的可行路径。如果智能体进化的终极目标之一是创造出能够持续自我改进的系统，那么AEVO所展示的这种对自身进化机制的编辑能力，无疑是朝向这一目标迈出的关键一步。

理论框架 (Theoretical Framework)

概念谱系与思想渊源

AEVO的理论根基深深植根于几个相互交织的研究传统之中，包括元学习（meta-learning）、程序搜索（program search）、智能体工作流自动化以及开放-ended发现系统。理解这一理论谱系有助于把握AEVO在概念层面的定位及其创新之处。

早期的元学习研究已经展示了学习规则本身可以被优化的思想。Wang等人（2016）的工作表明，循环强化学习动态可以被学习，而Houthooft等人（2018）则探索了策略梯度目标本身的进化。这些工作奠定了一个重要原则：优化过程的上层参数（如学习率、探索策略）本身可以成为优化的对象。在智能体系统领域，这一思想被延伸到了可编辑的智能体程序和记忆系统。HyperAgents（Zhang et al., 2026）研究了自指性（self-referential）智能体程序，其中任务解决行为和元改进机制都可以被修改。MemEvolve和ALMA（Xiong et al., 2026）则探索了智能体记忆设计的元进化。然而，正如AEVO作者所指出的，这些现有方法要么将元改进内嵌于自修改的智能体程序内部（如HyperAgents），要么专注于特定组件（如记忆）的进化，而未能提供一个覆盖两种主要进化形式（程序化和基于智能体）的统一框架，同时也缺乏对评估和候选记录的外部治理机制。

在程序搜索和智能体工作流自动化领域，DSPy（Khattab et al., 2024）通过编译声明式语言模型调用来构建自改进流水线；AFlow（Zhang et al., 2024）自动化了智能体工作流的生成；ADAS（Hu et al., 2024）和Darwin Gödel Machine（Zhang et al., 2025）探索了智能体系统的自动化设计。这些系统展示了LLM驱动的自动化程序设计的可能性，但它们的搜索行为通常由固定程序或直接管理候选生成的智能体控制。与之形成对比的是，AEVO将进化过程本身视为交互环境，并研究如何操控控制未来搜索的机制。

核心概念的形式化定义

AEVO的理论框架建立在两个层次的形式化定义之上：智能体进化本身的形式化，以及将其重新框架化为交互环境的元层次形式化。

智能体进化的形式化。论文将智能体进化定义为一个通过重复改进轮次来优化工件（artifact）的过程。设 $x \in X$ 表示被优化的对象，可以是程序、提示词、工作流、技能、工具或智能体组件。用 $r$ 索引进化轮次，每一轮产生一个轮次上下文（round context） $c_{r}$ ，其中包含该轮生成的候选解、评估结果、执行轨迹、失败信息、成本和优化过程中产生的任何中间信息。经过 $r$ 轮后的累积进化上下文记为：

C_{r} = (c_{1}, c_{2}, \dots, c_{r})

这里的 $C_{r}$ 不仅仅是一个候选解的集合，而是一个丰富的过程记录，捕捉了搜索是如何展开的。优化机制（optimization mechanism） $Π$ 被定义为推进进化的算子：

c_{r} = Π (C_{r - 1}), C_{r} = C_{r - 1} \oplus c_{r}

其中 $\oplus$ 表示将新产生的轮次上下文追加到累积进化上下文中。 $Π$ 的关键特性在于它不必是一个固定算法；它也可以是一个智能体过程，读取历史、推理反馈并决定如何生成下一个候选解。因此， $Π$ 代表了从当前进化上下文继续搜索的机制。

在这一形式化下，现有的智能体进化方法主要在 $Π$ 的实例化方式上有所不同。在程序化进化中， $Π$ 是一个预定义的外循环，其行为主要由选择和优化决定：选择规则从 $C_{r - 1}$ 中选择先前的候选解或上下文，而优化算子从所选信息生成新候选解。评估为生成的候选解分配分数、轨迹和反馈，为未来选择和更新提供信号。在基于智能体的进化中， $Π$ 则由通用智能体实现。该智能体读取累积上下文 $C_{r - 1}$ 并决定下一步做什么，例如检查反馈、比较候选解、修改工件、编写工具或生成新的尝试。因此，程序化进化显式但僵硬地指定搜索控制，而基于智能体的进化则将搜索控制隐含在智能体的上下文条件行为中。

进化作为交互环境。这是AEVO理论框架中最具概念创新性的部分。论文将进化过程本身视为一个元智能体的交互环境。在第 $r$ 轮，该环境的状态由轮次索引和累积进化上下文共同定义：

s_{r} = (r, C_{r})

当优化机制可能在轮次间变化时，当前机制记为 $Π_{r}$ ，它指定了环境的转移规则。在没有干预的情况下，下一轮通过将当前机制应用于当前上下文产生：

c_{r + 1} = Π_{r} (C_{r}), s_{r + 1} = (r + 1, C_{r} \oplus c_{r + 1})

为了与该环境交互，引入元智能体 $M$ 。 $Π_{r}$ 的角色是继续候选搜索，而 $M$ 的角色是对 governing 该搜索的进化过程本身采取行动。由于完整状态 $s_{r}$ 可能庞大且嘈杂，元智能体接收从状态中提取的观察：

o_{r} = Φ (s_{r}) = Φ (r, C_{r})

其中 $Φ$ 从累积上下文中总结相关信息，如进展、重复失败、无效尝试、成本模式或冗余搜索方向。给定该观察，元智能体产生编辑动作：

a_{r} = M (o_{r})

这个动作并不直接成为下一个候选解。相反，它修改进化环境的转移规则：

Π_{r + 1} = Edit (Π_{r}, a_{r})

编辑后的机制随后用于继续进化：

c_{r + 1} = Π_{r + 1} (C_{r}), C_{r + 1} = C_{r} \oplus c_{r + 1}

在这一形式化中，智能体进化被框架化为一个环境，其中状态是累积的进化上下文，观察是对该上下文的摘要，而动作编辑控制未来搜索的机制。这一框架适用于两种进化形式：对于程序化进化，编辑 $Π_{r}$ 改变显式组件如选择、优化、反馈使用、预算分配或更新规则；对于基于智能体的进化，编辑 $Π_{r}$ 改变塑造未来决策的智能体上下文，如技能、目标、工具、反馈格式或执行上下文。在两种情况下，元智能体都不是通过提出一个候选解来引导进化，而是通过修改后续搜索如何进行来引导进化。

理论假设与适用范围

AEVO的理论框架隐含了几个关键假设，理解这些假设对于评估其适用范围和局限性至关重要。

首先，框架假设累积的进化上下文 $C_{r}$ 包含了足够的信息来支持元智能体做出有意义的机制编辑决策。这意味着搜索过程产生的痕迹、反馈和失败记录应当具有结构性和可解释性，使得元智能体能够从中识别模式并推断因果关系。如果评估反馈是纯粹的黑箱分数而没有任何可解释性，或者执行轨迹过于嘈杂难以分析，那么元智能体的观察 $o_{r}$ 将缺乏指导编辑所需的信息内容。

其次，框架假设进化机制 $Π$ 是可编辑的——即存在一个有效的编辑操作 $Edit (Π_{r}, a_{r})$ 能够将当前机制转换为改进后的机制。这要求进化过程具有足够的"反射性"（reflectivity），使得其控制结构能够被外部操作访问和修改。在程序化进化中，这相对直接，因为外循环的代码可以直接被编辑；在基于智能体的进化中，这要求智能体的操作上下文（提示词、技能、工具、目标）具有足够的外显表征，使得元智能体能够对其进行有意义的修改。

第三，框架假设存在一种稳定的Harness来保护评估过程和候选记录的完整性。这是确保进化过程不被"奖励黑客"（reward hacking）或评估器操纵所破坏的关键。如果没有这种外部治理，元智能体或内层智能体可能会找到捷径来人为提高评估分数，而不是真正改进候选解的质量。

这些假设界定了AEVO框架的适用范围：它最适合那些评估反馈具有丰富信息内容、进化机制具有可编辑表征、且需要长期搜索才能找到高质量解的问题领域。程序合成、科学发现中的假设生成与验证、以及复杂系统的优化都是典型应用场景。相反，对于评估反馈单一、搜索空间简单或需要快速单次推理的任务，AEVO的元编辑开销可能得不偿失。

技术架构 (Technical Architecture)

AEVO的技术架构是其理论框架的工程实现，核心是一个Harness约束下的两阶段循环，交替执行元编辑阶段（meta-editing phase）和进化段（evolution segment）。这一架构的设计精妙之处在于它既为元智能体提供了足够的信息和操控能力来引导长期进化，又通过Harness的保护机制确保了整个系统的稳定性和评估的可靠性。

系统概览与数据流

从系统层面看，AEVO可以被理解为一个分层的控制结构。最底层是被优化的工件和固定的任务评估器，它们构成了不可变的问题定义和性能度量。中间层是进化机制 $Π_{r}$ ，它可以是显式的进化程序（程序化设置）或通用智能体的操作上下文（基于智能体的设置）。这一层负责生成候选解并将其提交评估。最上层是元智能体 $M$ ，它观察整个进化过程的累积证据，并决定如何编辑中间层的机制。

数据在系统中的流动遵循一个清晰的路径。在进化段中，当前机制 $Π_{r}$ 根据运行计划（run plan）执行，产生一系列候选解。每个候选解都通过Harness控制下的评估器进行官方评估，产生的评估结果（分数、有效性、执行轨迹、错误信息、成本、来源等）被追加到候选历史中。这一过程累积了丰富的进化证据，包括成功的候选解、失败的尝试、重复的模式和成本的分布。当进化段结束（达到迭代预算或满足停止条件）时，元编辑阶段开始。元智能体检查整个工作空间，包括累积的历史记录、当前机制的定义文件和之前的元编辑决策。基于这些观察，元智能体产生两个输出：一是对工作空间的编辑（修改机制定义），二是下一段的运行计划（指定迭代预算和停止条件）。

Harness在这一架构中扮演着关键的基础设施角色。它标准化了进化工作空间的布局，将候选解、日志、轨迹、评估记录、元智能体指令和可编辑的进化组件组织到固定的目录结构中。更重要的是，它保护了评估器：评估器与进化智能体和元智能体隔离，这些智能体可以提交候选解，但不能检查评估器内部、访问隐藏的基准测试工件或直接写入官方分数。这种隔离防止了"奖励黑客"行为，确保了评估结果的真实性和进化压力的有效性。Harness还暴露了一个命令行接口，用于初始化工作空间、启动进化段、检查最近状态和候选历史，以及继续当前进程。

元编辑阶段：从候选生成到机制编辑

元编辑阶段是AEVO区别于现有进化方法的核心创新。在这一阶段，元智能体的角色不是候选解生成器，而是过程级编辑器（process-level editor）。它改变未来候选解产生的机制和条件，而非直接参与候选解的构造。

元智能体可以是任何具有代码编辑能力的智能体，如Claude Code、Codex或开源编码智能体。给定当前工作空间，它首先检查累积历史，包括候选解的得分分布、失败模式、改进趋势和成本效率。然后，它产生一个元动作，由两部分组成：工作空间编辑和运行计划。工作空间编辑修改定义 $Π_{r}$ 的文件，这些文件可能包括程序代码、提示词、技能定义、目标描述、工具实现、反馈格式、验证器、笔记或执行上下文。运行计划则指定下一段进化应该如何进行，包括允许的迭代次数、预算使用和停止条件。

这种设计的精妙之处在于它实现了粗粒度干预（coarse-grained intervention）。一次元编辑可以控制未来多个候选解的生成，而非对每个候选解都进行微观管理。当进化富有成效时，元智能体可能为当前机制分配更多迭代；当进化反复产生无效候选解、冗余尝试或无关探索时，元智能体可以停止该段并修订 $Π_{r}$ 后再继续。这种决策逻辑使得元智能体扮演了"进化策略家"的角色，在观察长期趋势后做出战略调整，而非对每一次失败都做出反应。

Harness约束下的进化段

进化段是在元编辑之后执行的区间，它在元智能体制定的运行计划下运行当前机制 $Π_{r}$ 。根据设置的不同，这一段可能包含多轮程序化进化，或一个产生多个候选尝试的内层智能体会话。每个提交官方评估的候选解都通过Harness控制的评估器，产生的工件、分数、轨迹、失败信息、成本和来源被追加到候选历史中。

Harness提供的稳定边界对于可靠的元编辑至关重要。如果没有标准化的工作空间布局和受保护的评估过程，元智能体可能难以跟踪可靠的证据，或者其编辑的效果难以验证。例如，在程序化设置中，初始程序被有意设计得极简——它选择当前最佳有效候选解作为父代，应用单次LLM重写步骤，然后调用固定评估器。这种最小化的初始化使得后续的元编辑更容易解释，因为修改作用于这些明确暴露的"把手"而非评估器内部。在基于智能体的设置中，初始智能体是一个最小化的ReAct风格智能体，其提示词表面和step()循环都是可编辑的，但种子版本只包含基本推理、短视距记忆和严格的JSON+bash动作协议。这种弱结构化的初始化使得后续改进更容易归因于提示词、记忆管理、恢复逻辑或上下文组织的变化，而非高度工程化的种子智能体。

跨形式实例化：程序化与基于智能体的统一

AEVO架构的一个显著成就是它以相同的两阶段循环适用于两种截然不同的进化形式。外循环保持不变：元智能体编辑当前机制 $Π_{r}$ 并指定下一段进化如何运行。差异在于 $Π_{r}$ 的具体构成。

在程序化进化中， $Π_{r}$ 是一个显式的进化程序，定义了如何选择先前候选解或上下文、如何生成新候选解、如何使用评估反馈以及如何更新候选历史。元动作因此编辑程序本身，例如修订选择策略、更改优化算子、修改反馈摘要、添加局部过滤或重试逻辑、调整预算使用或修复候选管理。编辑后的程序控制下一段进化，该段可能在下次元智能体干预前运行多轮。

在基于智能体的进化中， $Π_{r}$ 是通用进化智能体的操作上下文，包括目标、技能、工具、记忆文件、共享笔记、验证器和执行设置。元动作因此编辑下一段内层智能体会话将在何种条件下运行，例如修订技能、重写会话目标、更改评估器反馈的呈现方式或重组共享笔记。内层智能体仍然负责生成候选解，而AEVO修订塑造未来进化的上下文。

这种统一性展示了AEVO框架的深度：元编辑的抽象层足够通用，可以涵盖从修改Python代码文件到调整智能体提示词的各种操作，而其效果始终一致——改变控制未来搜索的机制，而非直接产生搜索的输出。

实验评估 (Experimental Evaluation)

AEVO的实验设计经过精心构思，旨在验证一个核心假设：机制层面的干预能够同时改善程序化进化和基于智能体的进化，在开放式优化和标准基准测试上都带来显著性能提升。实验覆盖了两大类任务（开放式优化和固定基准测试）和三种基线家族（单智能体推理、基于智能体的进化和程序化进化），构成了对AEVO全面而严格的评估。

任务设置与评估协议

实验任务的选择体现了研究者对不同难度和性质的进化问题的考量。标准基准测试包括Terminal-Bench和ARC-AGI-2。Terminal-Bench评估终端环境中的端到端任务完成能力，而ARC-AGI-2测量固定评估规则下的抽象推理能力。这两个任务代表了需要智能体在结构化环境中执行多步操作和逻辑推理的典型场景。

三个开放式优化任务则代表了更具挑战性的代码进化场景：circle_packing_26（CP26）要求将26个圆打包到单位正方形中以最大化半径总和；autocorrelation_second（AC2）要求在区间 $[- 1 / 4, 1 / 4]$ 上构造非负函数以最大化自卷积的特定比率；Anthropic的Kernel优化任务则要求为模拟的VLIW SIMD机器优化内核，在保持隐藏测试正确性的同时最小化时钟周期。这些任务的共同特点是具有隐藏的或固定的外部评估器，要求优化器改进可执行代码而非仅产生一次性答案，且搜索空间巨大，需要长期进化才能找到高质量的解。

基线系统的选择确保了对AEVO的全面比较。在Terminal-Bench和ARC-AGI-2上，比较了单次ReAct Pass@1和五个程序化进化基线：ADAS、DGM（Darwin Gödel Machine）、AFlow、SPO和GEPA。在三个开放式任务上，比较了两个基于智能体的进化基线（Codex和Claude Code）和两个程序化进化基线（OpenEvolve和HyperAgents）。这种设置使得AEVO的两种变体（AEVO Procedure和AEVO Agent）都能与保持固定搜索程序或依赖智能体直接改进工件的系统进行对比。

AEVO以两种形式实例化：在程序化设置中，元智能体编辑进化程序而保持任务评估器固定；在基于智能体的设置中，元智能体通过提示词、笔记和可重用工具引导编码智能体Harness。实验使用Claude Code和Codex作为元智能体接口，底层优化模型为Claude-Opus-4.7和GPT-5.4。对于Terminal-Bench和ARC-AGI-2，候选执行使用Gemini-3-Flash。评估指标包括任务得分、达到最佳得分的首轮次（Best R.），以及每轮优化的平均美元成本（$/R）。

主要结果与性能分析

实验结果清晰地展示了AEVO在不同任务类型和进化形式上的优势。在开放式优化任务上（表1），AEVO在所有三个任务上都取得了最佳或并列最佳的结果，同时改善了找到强候选解的速度或稳定性。特别值得注意的是Kernel优化任务，AEVO在100次迭代内达到了1138个周期，这是目前已知的最佳结果。这一成就并非来自于简单地增加候选尝试数量，而是源于Harness约束下的元编辑循环改善了进化随时间利用反馈的方式。

Category	Method	Model	Task 1 (Score/Best R./$/R)	Task 2 (Score/Best R./$/R)	Task 3 (Score/Best R./$/R)
Agent-Based Evolution	Codex	GPT-5.4	2.63593 / 0.82	0.9176 / 96 / 0.04	1667 / 4 / 0.96
Agent-Based Evolution	Claude Code	Claude-Opus-4.7	2.6305 / 50 / 0.78	0.9438 / 44 / 0.81	1615 / 97 / 0.51
Procedure-Based Evolution	OpenEvolve	Claude-Opus-4.7	2.6303 / 80 / 0.42	0.9186 / 99 / 0.67	2411 / 99 / 0.62
Procedure-Based Evolution	HyperAgents	Claude-Opus-4.7	2.6359 / 32 / 9.50	0.9245 / 48 / 2.83	7086 / 86 / 1.56
Procedure-Based Evolution	OpenEvolve	GPT-5.4	2.6341 / 19 / 0.23	0.9118 / 74 / 0.54	2464 / 100 / 0.57
Procedure-Based Evolution	HyperAgents	GPT-5.4	2.6359 / 47 / 3.19	0.9237 / 61 / 1.46	3015 / 98 / 1.03
Ours	AEVO Procedure	Claude-Opus-4.7	2.63594 / 1.47	0.9278 / 29 / 0.70	1803 / 55 / 1.37
Ours	AEVO Agent	Claude-Opus-4.7	2.63592 / 0.34	0.9459 / 99 / 1.40	1519 / 55 / 1.27
Ours	AEVO Agent	GPT-5.4	2.635917 / 0.32	0.9398 / 100 / 1.31	1138 / 99 / 1.23

表1：开放式优化任务结果。加粗和下划线分别表示最佳和次佳得分。

在标准智能体和推理基准测试上（表2），AEVO相对于强固定循环基线也取得了显著提升。在Terminal-Bench上，AEVO Procedure达到53.8分，比最佳基线AFlow的44.3分提高了21%以上；在ARC-AGI-2上，AEVO达到47.0分，比AFlow的31.8分提高了48%。平均而言，AEVO相对于最强基线取得了26%的相对改进。

Category	Method	Model	Terminal-Bench (Score/Best R.)	ARC-AGI-2 (Score/Best R.)
Single-Agent Inference	ReAct Pass@1	Gemini-3-Flash	28.6 / —	21.8 / —
Procedure-Based Evolution	ADAS	Gemini-3-Flash	38.6 / 7	36.0 / 3
Procedure-Based Evolution	DGM	Gemini-3-Flash	44.3 / 19	29.8 / 5
Procedure-Based Evolution	AFlow	Gemini-3-Flash	44.3 / 11	31.8 / 14
Procedure-Based Evolution	SPO	Gemini-3-Flash	42.9 / 19	25.0 / 6
Procedure-Based Evolution	GEPA	Gemini-3-Flash	41.4 / 15	22.5 / 13
Ours	AEVO Procedure	Gemini-3-Flash	53.8 / 7	47.0 / 12

表2：标准基准测试结果。加粗和下划线分别表示最佳和次佳得分。

成本分析与效率考量

这些性能提升伴随着更高的每轮优化成本——在标准基准上，AEVO的成本约为程序化基线的三倍。然而，成本分析揭示了有趣的权衡。在开放式任务中，成本并非仅由方法是否基于智能体或程序决定。基于智能体的进化在通过具有提示缓存和持久上下文的编码智能体接口实现时，可以保持成本竞争力。AEVO Agent在circle_packing_26上保持0.32–0.34美元/轮的低成本，在Kernel优化上为1.23–1.27美元/轮。相比之下，程序化方法在长视距优化中可能因反复构建大型提示而变得昂贵，如HyperAgents在Task 1和Task 2上显示的较高每轮成本。

这一发现挑战了一个常见假设：基于智能体的方法必然比程序化方法更昂贵。关键在于提示缓存和上下文复用的效率。AEVO通过Harness维护了结构化的进化上下文，使得元智能体可以在不重复构建完整历史的情况下访问累积证据，从而实现了成本效率与搜索效果的平衡。

消融实验与组件重要性

附录中的消融实验（表3）进一步阐明了AEVO Agent关键组件的作用。在Kernel优化任务上，完整系统在100轮预算内完成且未出现奖励黑客，达到最佳有效结果1138周期。移除元智能体技能不会导致奖励黑客，但显著削弱了长视距搜索能力：最佳运行仅达到1407周期，且运行不能持续完成完整预算。移除进化Harness则更加不可靠：虽然一次运行找到了1167周期的强解，但三次运行中的两次进入了奖励黑客轨迹，未能产生有效的周期结果。这些结果表明，技能主要支持持续有效的元干预，而Harness提供了保持智能体搜索与真实目标对齐所需的受保护评估边界和结构化进化上下文。

Method	Run	Reward Hack	Total R.	Cycles↓	Best R.	Invalid / Total
Full	—	No	100	1138	99	16/100
w/o Meta-Agent Skills	1	No	37	2379	18	2/37
w/o Meta-Agent Skills	2	No	99	1536	99	28/99
w/o Meta-Agent Skills	3	No	65	1407	53	21/65
w/o Evolution Harness	1	No	100	1167	81	19/100
w/o Evolution Harness	2	Yes	100	N/A	N/A	47/100
w/o Evolution Harness	3	Yes	57	N/A	N/A	22/57

表3：Kernel优化任务上的消融实验结果。

进化动态与长期行为

图3展示的进化轨迹揭示了AEVO在长期搜索中的独特优势。程序化方法如OpenEvolve和HyperAgents一旦当前选择或变异策略停止产生有用候选解，性能曲线就会趋于平缓。相比之下，AEVO能够修订驱动后续进化的机制。当进展停滞或出现重复失败时，这些信号成为过程级反馈：元智能体可以调整程序、指令或可重用搜索上下文，在停滞后产生阶梯式改进。这在晚期阶段的跳跃中可见，正是这一跳跃导致了最佳的100轮结果。

直接编码智能体虽然能通过内部模拟、执行和调试获得强早期收益，但一旦局部进展变得困难就可能提前停止。AEVO通过将明确的轮次、候选记录和评估反馈维护在智能体上下文之外，避免了将进展与智能体的局部停止决策绑定。这使得外部进化预算能够被更一致地使用。将Codex基础的AEVO从100轮扩展到200轮的实验显示，最佳结果从1138改善到1121周期，表明AEVO能够从额外轮次中持续获益，而非在获得早期强候选解后就饱和。总体而言，这些轨迹表明智能体灵活性是有用的，但可靠的长期改进需要一个保留全局证据并实现机制层面修正的Harness。

案例研究 (Case Studies)

案例研究为理解AEVO如何在实践中运作提供了宝贵的具体视角。论文提供的ARC-AGI-2程序化进化和性能工程（Kernel优化）两个案例，展示了AEVO在不同任务类型上的工作机制和进化策略。

ARC-AGI-2上的程序化进化案例

图4展示了一个ARC-AGI-2任务上的程序化进化案例，其中每个P表示元智能体产生或修订的程序，每个C表示当前程序生成的候选智能体。实心节点是突破性候选解，虚线节点是失败候选解，箭头表示父代关系。

从初始程序P0开始，元智能体初始化了一个基于验证准确率选择候选智能体的最佳父代重写程序。这首先产生了初始突破性候选解C1，但后续变体暴露了观察解析和细化中的几种失败模式。元智能体没有盲目继续相同搜索，而是修订程序：P1添加了Pass@K采样和用于验证器引导生成的局部分数；P2修复了观察解析以激活反馈引导的细化；P3扩展了细化范围以在提交前使用更多通过/失败反馈。当搜索陷入停滞时，P4丢弃了陈旧反馈并采样更多样化的替代方案，从而产生更强的候选解。后来的干预P5–P6通过任务配置文件和骨架提示探索更强的去锚定，但这些从P4回退。这一案例生动展示了失败候选解并非被简单丢弃，而是成为过程级证据，帮助元智能体决定如何修订未来的进化程序。

性能工程（Kernel优化）上的基于智能体进化案例

在性能工程任务上的案例研究揭示了AEVO Agent模式下进化的本质：进化的对象不是单一提交工件，而是未来内层智能体会话所见的Harness。在性能工程运行中，这一Harness至少包含五个持久层：任务技能、会话特定目标、持久家族图、评估会计的支持工具，以及写回工作空间的结构化会话笔记。

任务技能层定义了优化的基本规则和环境交互方式，包括如何调用评估器、如何解释反馈分数，以及关键的工作流注意事项（如必须使用本地数据库路径运行评估）。会话目标层则承载了具体的假设和测试计划，例如"家族D'' - 深度3缓存"或"软件流水线内层循环"等可证伪假设的有序列表。持久家族图记录了不同会话中探索的代码家族及其性能特征，例如"session 4 - 家族B+C：融合哈希+乒乓+缓存深度1复用，最佳1897周期"，以及被证伪的假设（"stage-5短路假设被证伪"）和不应重复的方向（"仅调度器微调/优先级调整"）。

这种分层结构使得元智能体能够将长期记忆（家族图、技能定义）与会话级目标（当前假设列表）分离，同时通过结构化笔记确保每个会话的教训被捕获并传递到未来会话。例如，session 9的笔记详细记录了哪些尝试有效（显式家族端口减少了597周期）、哪些无效（完全无流的深度2重写反而有害），并为session 10提出了一个具体的可证伪假设。这种知识积累和传递机制正是AEVO能够在长期进化中持续改进的关键——它不仅仅是优化单个候选解，而是在优化整个搜索过程本身的知识组织方式。

最佳性能工程工件是一个两文件提交：顶层程序只是一个包装器，而调度级优化驻留在一个针对基准测试专门化的基类中，暴露了一小组轮次家族控制点。最终验证的工件达到1138周期，通过结合评估器兼容的打包、基准轮次的显式专门化，以及跨引擎的选择器逻辑非均匀分配。分析指出，低周期数来自三个耦合变化：文件本地importlib包装器（保持评估器兼容性）、围绕基准测试精确轮次模式重构内核的基准专门化基类（移除通用控制开销），以及引擎平衡而非进一步结构重构（将二元选择器替换为multiply_add仅在 induced valu压力保持在新瓶颈之下时才有利可图）。

这两个案例共同说明了AEVO中持久改进的两种模式：基准任务通过改变优化器推理失败的方式来改进，而开放式优化通过跨多个会话保留和重组低层实现知识来改进。

综合价值与局限 (Synthesis — Value and Limitations)

理论意义与概念贡献

AEVO在理论层面的最大贡献在于提出了一种将智能体进化环境化的元层次视角。传统上，无论是程序化进化还是基于智能体的进化，研究者关注的都是如何改进搜索的输出——更好的候选解、更快的收敛速度、更高的最终性能。AEVO则将注意力转向了搜索过程本身，提出了一种"搜索如何被搜索"的递归结构。这种视角的转变具有深远的认识论意义：它将进化从一种被动的、被预设规则或隐式行为所驱动的过程，转变为一个主动的、可被外部观察和干预的交互系统。

这一框架提供了一套新的概念工具来思考和设计智能体系统。"进化上下文作为状态"（evolution context as state）的概念使得搜索历史不再是简单的日志记录，而成为驱动未来决策的过程级记忆；"机制编辑作为动作"（mechanism editing as action）的概念则将元层次的控制从候选生成中解放出来，使得策略调整与策略执行能够在不同时间尺度上运作；"Harness作为环境边界"（harness as environment boundary）的概念则为长期进化中的评估可靠性和证据组织提供了工程上的保障。这些概念工具不仅适用于本文研究的程序合成和代码优化任务，也可以被推广到科学发现、创意生成和策略学习等更广泛的领域。

实际应用潜力与部署考量

从实践角度看，AEVO的潜在应用场景广泛。在软件工程领域，它可以被用于自动化代码优化、bug修复和性能调优，特别是在需要长期探索和试错的大规模系统中。在科学发现领域，AEVO的Harness机制可以保护实验评估的完整性，而元编辑能力则允许系统根据积累的实验数据调整假设生成策略。在智能体工作流设计中，AEVO提供了一种自动改进工作流本身的方法，使得工作流能够根据任务执行的历史反馈自我优化。

然而，将AEVO部署到实际环境中需要考虑几个实际因素。首先是成本：AEVO的元编辑开销意味着它在每轮优化上的成本显著高于固定程序基线，这在大规模部署时可能成为一个制约因素。其次是延迟：元编辑阶段需要元智能体对工作空间进行全面分析，这可能引入显著的延迟，对于需要实时响应的应用场景可能不适用。第三是复杂性：AEVO系统的设置需要仔细设计Harness的工作空间布局、元智能体的技能规范和评估器的隔离机制，这对工程能力提出了较高要求。

核心优势

AEVO最突出的优势在于其统一的跨形式框架。能够将同一套元编辑机制同时应用于程序化进化和基于智能体的进化，表明作者识别出了这两种 seemingly different 方法背后的共同结构——它们都是累积上下文并通过某种机制驱动未来搜索的过程。这种统一性不仅简化了理论分析，也为实践中根据任务特性选择或混合两种进化形式提供了灵活性。

另一核心优势是Harness的设计。通过标准化工作空间、保护评估器和记录结构化证据，Harness解决了长期进化中的几个关键工程挑战：奖励黑客、证据丢失和上下文漂移。消融实验明确显示，没有Harness的系统容易陷入奖励黑客轨迹，而Harness的存在确保了搜索与真实目标的对齐。

第三，AEVO的粗粒度干预策略是一种明智的工程选择。让元智能体控制进化段而非单个候选解，既减少了元编辑的开销，又给予了内层机制足够的自主权来探索局部空间。这种"战略控制而非战术控制"的分层架构使得系统能够在元层次的策略调整与对象层次的高效搜索之间取得平衡。

局限性与潜在风险

AEVO的局限性同样值得认真审视。首先是元智能体的能力瓶颈：整个系统的性能上限在很大程度上取决于元智能体能否从累积证据中识别出有意义的模式并做出有效的机制编辑。如果元智能体无法正确诊断进化停滞的原因，或者提出的编辑未能改善搜索机制，那么AEVO的优势就无法发挥。这种对元智能体能力的依赖意味着AEVO可能不适用于那些需要深度领域专业知识才能理解反馈信号的任务。

其次，框架对评估反馈的质量和丰富性有较高要求。如果评估器只返回一个简单的标量分数而没有可解释的执行轨迹或错误信息，那么累积的进化上下文将缺乏指导机制编辑所需的结构性内容。虽然AEVO在具有丰富反馈的代码优化任务上表现优异，但在"黑箱"评估设置中的有效性尚待验证。

第三，AEVO的元编辑开销是一个实际的权衡。虽然作者展示了在开放式任务上AEVO Agent可以保持成本竞争力，但在标准基准上其成本约为程序化基线的三倍。对于资源受限的应用或需要大量并行进化运行的场景，这一开销可能成为一个重要的设计考量。

最后，安全性和可控性是部署AEVO时需要警惕的问题。虽然Harness保护了评估器，但元智能体仍然具有修改进化机制的广泛能力。在关键任务应用中，需要仔细设计Harness的权限边界，确保元编辑不会引入不可预测的行为或违反系统约束。

更广泛的学科影响

从更广阔的学科视角看，AEVO代表了一种将控制论的递归层次结构引入智能体系统的尝试。它呼应了von Foerster关于"二阶控制论"的思想——即观察系统本身也应成为被观察的对象。在AEVO中，进化过程不仅是一个解决问题的工具，更是一个可以被观察、编辑和优化的对象。这种"自我反思"的能力，无论以多么初级的形式实现，都是迈向更自主、更自适应的智能体系统的重要一步。

延伸阅读与思考 (Further Reading and Reflection)

重要基础工作

AEVO建立在几个关键的研究传统之上。在元学习领域，Wang等人（2016）的"Learning to reinforcement learn"展示了学习规则本身可以被优化的早期思想，而Houthooft等人（2018）的"Evolved policy gradients"则将这一思想应用于策略梯度目标。这些工作为AEVO的"机制编辑"概念提供了理论先例。

在智能体进化和自动化设计领域，几项工作构成了直接的先行研究。DSPy（Khattab et al., 2024）提出了编译声明式语言模型调用为自改进流水线的框架，展示了LLM程序可以被系统性地优化。AFlow（Zhang et al., 2024）专注于智能体工作流的自动化生成，而ADAS（Hu et al., 2024）探索了智能体系统的自动化设计。这些系统与AEVO的区别在于它们主要关注工作流或程序的结构生成，而AEVO关注进化过程本身的操控。

在自指和自我改进智能体领域，HyperAgents（Zhang et al., 2026）与AEVO形成了最有趣的对比。HyperAgents研究自指性智能体程序，其中任务解决行为和元改进机制都可以被修改。与AEVO的关键区别在于，HyperAgents将元改进内嵌于自修改的智能体程序内部，而AEVO通过外部Harness观察和编辑进化环境。这种内嵌式与外部化的设计选择反映了两种不同的元控制哲学：前者追求更紧密的集成，后者强调更清晰的分离和治理。

未来研究方向

AEVO开辟了多个富有前景的研究方向。首先是更轻量级的元干预策略。当前AEVO的元编辑阶段使用完整的编码智能体（如Claude Code或Codex），这在成本上相当昂贵。研究是否可以使用更小、更专门的模型或基于规则启发式的方法来实现有效的元干预，将显著降低AEVO的部署门槛。

其次是多任务和迁移学习场景。当前AEVO的评估主要集中在单任务进化上。探索元编辑机制是否能够跨任务迁移——即在一个任务上学习的进化策略是否可以被迁移到相关任务上——将极大地扩展AEVO的实用性。特别是，元智能体是否能够识别不同任务之间的结构相似性，并据此调整其编辑策略，是一个值得深入探索的问题。

第三是理论分析。虽然AEVO在实验中展示了令人印象深刻的性能，但对元编辑收敛性、最优机制的存在性以及Harness对搜索空间结构的影响等理论问题，目前还缺乏系统性的分析。建立AEVO框架的理论保证，即使只在简化设置下，也将为这一方向提供更坚实的理论基础。

第四是安全性和可控性。随着元智能体获得越来越大的能力来修改进化机制，确保这些修改不会引入不可预测的行为或违反关键约束变得至关重要。研究如何在Harness中嵌入形式化的安全约束，以及如何使元编辑过程本身可解释和可审计，是实现AEVO在关键任务应用中安全部署的必要步骤。

开放问题与深层挑战

AEVO所触及的深层问题超越了其具体的技术实现，指向了智能体系统中"自我模型"和"元认知"的根本性问题。一个智能体何时以及如何意识到其自身的搜索策略需要改变？这种意识是如何从累积的失败和成功中产生的？AEVO提供了一个工程上的近似——通过元智能体外部地实现这种反思——但内在的、真正内嵌于智能体认知架构中的自我改进机制仍然是一个开放的科学问题。

更深层的挑战在于进化的"意义"问题。AEVO编辑的是控制搜索如何进行的机制，但这些机制本身是被设计来达到特定目标的。当目标本身是开放-ended或不断演化的（如在开放-ended科学发现中），如何定义"更好的进化机制"就成为一个哲学和工程的交叉问题。AEVO的Harness提供了评估的稳定性，但在真正开放-ended的设置中，评估标准本身可能也需要进化。

个人反思

这项工作中最令人惊讶的方面是其简洁性所蕴含的深刻性。AEVO的核心思想——将进化过程本身视为环境并通过元编辑操控其机制——在概念上出奇地简单，但其效果却异常显著。这种简洁性往往标志着一个好的科学思想：它不是通过增加复杂性来解决问题，而是通过改变看待问题的方式来重新框定问题。

另一个引人深思的观察是失败的价值。在ARC-AGI-2案例研究中，失败的候选解没有被丢弃，而是成为过程级证据的一部分。这与传统进化计算中通常只关注精英个体或种群统计的做法形成对比。AEVO表明，在智能体驱动的进化中，失败的"如何"和"为什么"可能与成功的"是什么"同样重要，因为机制层面的改进往往来自于对失败模式的诊断而非对成功模式的复制。

如果要进一步探索，我最感兴趣的是元智能体的"心智理论"（theory of mind）问题：当元智能体编辑进化机制时，它在多大程度上"理解"了内层搜索过程的动态？当前AEVO的元智能体似乎主要基于模式匹配和启发式规则来做出编辑决策。如果能够让元智能体构建起对内层进化动态的因果模型——例如，理解特定的选择策略为何导致过早收敛，或者特定的变异算子为何在某些搜索区域有效而在其他区域无效——那么元编辑的精度和效果可能会跃升到一个新的层次。这或许是连接AEVO的实用框架与更深层的人工智能科学理解之间的桥梁。

Topics: