MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Authors: Qianshu Cai, Yonggang Zhang, Xianzhang Jia, Wei Xue, Jun Song, Xinmei Tian, Yike Guo
Affiliations: University of Science and Technology of China; The Hong Kong University of Science and Technology; Hong Kong Baptist University
Venue: arXiv preprint 2605.22794v1
Year: 2026
Code: https://github.com/dav-joy-thon/MOSS
Pages: 12

PDF: [[attachment/papers/20260523_moss_self_evolution_source_level_rewriting.pdf]]

研究摘要

自主智能体系统已经从研究原型演变为部署在真实渠道上的生产级 worker，但一个根本性矛盾始终存在：这些系统在部署后几乎完全静止——它们不会从实际使用方式中学习，重复出现的故障模式会在不同用户之间反复发生，直到下一次由人类主导的更新推送修复。面对这一困境，自进化智能体应运而生，但现有系统将进化严格限制在文本可变制品之内——技能文件、提示配置、记忆模式、工作流图——刻意绕开了控制智能体如何运作的 agent harness 代码层。这一 omission 造成了物理上不可逾越的修复边界：文本层面的编辑只能改变智能体"怎么想"，却永远无法触及智能体"怎么被调度"。

MOSS 的核心论点是：源代码级适应（source-level adaptation）是一种从根本上更加通用的进化媒介。作者从四个维度论证了这一点：图灵完备性、确定性生效、不会在长期上下文漂移中退化、以及严格包含关系 $T \subset S$ （文本可变设计空间严格包含于源代码设计空间）。MOSS 将这一理论主张 instantiation 到了生产级智能体 substrate OpenClaw 上，通过自动策展的生产故障证据 batch 驱动确定性七阶段进化管道。代码修改委托给可插拔外部编码智能体 CLI，MOSS 保留阶段排序和裁决权。候选版本通过 trial worker 重放验证，收敛后通过用户同意门控的原地容器交换进行推广，配备健康探测门控的回滚机制。在 OpenClaw 上的评估显示，MOSS 在无需人工干预的情况下，仅通过一个进化循环就将四项任务的平均 grader 分数从 0.25 提升至 0.61。

理论框架

MOSS 的理论立场需要追溯自进化智能体研究的学术谱系。学术线索中，SICA（Robeyns et al., 2025）首次展示了智能体可以编辑自身实现；Darwin Gödel Machine（Zhang et al., 2025）将其重新框架为对变体 archive 的开放式搜索；HyperAgents（Zhang et al., 2026）将元过程本身也纳入可编辑范围；Meta-Harness（Lee et al., 2026）证明将执行轨迹暴露给编码智能体比单纯基准分数更能驱动迭代改进。这些工作共同确立了源代码级自进化作为一个可行的 primitive，但都运行在极简脚手架上，依赖于探索性范式。

MOSS 的理论核心是"定向进化锚定生产证据"（directed evolution anchored to production-failure evidence）。与学术线索的探索性范式不同，MOSS 抛弃了随机突变和基准分数选择，转而采用由生产故障 batch 驱动的确定性管道。源代码级适应相对于文本可变进化的优势可以从计算理论严格理解：设文本可变设计空间为 $T$ ，源代码设计空间为 $S$ ，由于编程语言的图灵完备性， $T \subset S$ 且为严格包含——存在大量源代码结构无法被任何文本配置所表达，例如自定义并发调度策略、非标准状态机转换、或对路由逻辑的根本性重排。

MOSS 的进化循环建立在多阶段管道中的质量门控（quality gating in multi-stage pipelines）之上。作者指出，将诊断、规划、实现、验证和裁决全部塞进单个 prompt 会导致上下文过载。因此 MOSS 将进化分解为七个顺序阶段：Locate、Plan、Plan-Review、Implement、Code-Review、Task-Evaluate 和 Verdict。这种阶段化设计的理论基础在于认知任务分解（cognitive task decomposition）不仅能降低每个推理步骤的复杂度，还能产生可审计的中间产物，使系统具备可解释性和可干预性。

关于长期稳定性，MOSS 提出了"行为编码 vs 文本重读"（behavior encoding vs. text re-reading）的理论区分。文本可变系统中，每次交互都需要模型重新读取所有提示片段、技能描述和记忆条目；当这些条目不断累积，模型对特定指导的注意力会被稀释。相反，源代码编辑将修复直接编译为确定性行为，无需模型在每次交互中重新"理解"新规则，因此具有时间不变性（temporal invariance）。

技术架构

MOSS 围绕五个核心组件构建完整闭环：主容器（moss-gateway container）、控制表面 CLI（control-surface CLI）、外部编码智能体 CLI（external coding-agent CLI）、主机常驻守护进程（host-daemon）、以及临时 trial worker。

主容器承载着用户交互智能体、容器内进化服务，以及通过 bind mount 注入的 moss CLI 脚本。用户状态存放在主机独立 volume 中，确保原地容器交换时用户状态完整存活。控制表面通过 system-prompt injection 将进化能力暴露给智能体：在 substrate 系统提示中注入能力文档描述，引导智能体读取九个 CLI 子命令的用途和规则。前七个子命令通过 HTTP 路由到容器内进化服务；flag 和 catch-up 通过 Unix socket 路由到主机守护进程的自动扫描引擎。反向异步通知通过三个 webhook 事件（evolution-converged、evolution-failed、apply-complete）转化为智能体接收的系统消息。

外部编码智能体 CLI 的引入是最精妙的设计决策。MOSS 将进化调度和裁决保留在容器内确定性状态机中，而将具体编辑行为委托给主机侧子进程调用的外部编码智能体 CLI。这一职责分割沿着清晰 seam 展开：MOSS 拥有阶段排序、裁决、循环退出和交换时机，编码智能体 CLI 拥有在其范围内进行编辑的能力。MOSS 通过四方法 runner 接口抽象集成，已内置 Claude Code、OpenAI Codex、DeepSeek-TUI 和 OpenCode 四个 runner。

主机守护进程是主机常驻 asyncio 进程，负责容器生命周期管理。交换监督任务通过文件轮询检测进化状态目录中的交换请求；检测到后重启 substrate 容器指向候选镜像，进入 90 秒探测窗口，每 5 秒采样一次，连续三次通过四项健康检查则提交交换，否则回滚到最后已知良好镜像。回滚目标从独立的 last-known-good 镜像记录读取，防止陈旧请求将系统困在回滚循环。

临时 trial worker 构成运行时验证层。每次迭代中，主机守护进程从候选镜像启动 N 个短期容器，让智能体在每个容器中自主处理 batch 任务，每个任务重复多次试验以暴露 flakiness。Trial worker 与主容器网络隔离且无用户状态 volume 挂载，试验结束后即被销毁。

进化深度旋钮提供轻量、标准和深度三个档位，统一调整最大迭代次数、每阶段回合预算、每任务试验次数和平原阈值。

实验评估

MOSS 使用 claweval 基准中四项 compliance-audit 任务作为输入 batch，同时充当进化驱动信号和进化后效果测量。四项任务分为两个任务族（SLA 合规审计和补货链检查），每个族包含中英双语变体。被测智能体采用 OpenClaw 作为 substrate，DeepSeek V3.2 作为底层模型。

Baseline 运行的 grader 分数在 0.21 至 0.33 之间，平均约 0.25，远低于 0.75 的通过阈值。基线试验转录揭示了 harness 层故障的典型表现：在 SLA 合规任务中，智能体通常只列出部分相关工单，将其余标记为"响应数据不完整"；在补货链任务中，调度器任务、集成配置和库存水平之间的链式连接存在断裂或缺失。这些正是 harness 层故障——不是智能体"不知道"该做什么，而是工具调用和结果解析机制在结构上无法支撑完整的信息提取和链式推理。

Task	Baseline	Iter 1	Δ
T141zh_sla_compliance_audit	0.3273	0.5330	+0.2057
T142_sla_compliance_audit	0.2527	0.5453	+0.2926
T137zh_restock_chain_check	0.2213	0.4567	+0.2354
T138_restock_chain_check	0.2090	0.9049	+0.6959
mean	0.2526	0.6100	+0.3574

迭代 1 的四项任务平均分从 0.2526 提升至 0.6100。最显著的改善出现在 T138（英文补货链检查），分数跃升至 0.9049，所有三次试验均超过通过阈值。SLA 任务对上升至约 0.53–0.55：新的注释路径消除了最大缺陷，但时间差算术和 SLA 层级分类仍有自身难度。T137zh 的提升相对最小（+0.2354），三次试验中仅一次达到通过阈值。模型和任务定义在进化前后完全一致，变化的唯一来源是 harness 层代码修改——这有力证明了修复发生在先前系统无法触及的层次。

案例研究

迭代 1 的完整轨迹展示了 MOSS 如何将故障信号转化为 harness 层结构性修复。预循环 baseline 评估产出 baseline keypoint matrix，在工具排序、信息提取和结果报告等维度上被评定为 weak 或 missing。

Locate 阶段诊断出 harness 工具结果处理中的覆盖缺口：被进化智能体在面临多工具执行模式时，系统性地选择了通用执行路径而非语义工具路径，而 mediator 对该路径没有任何注释分支。一个次要解析问题加剧了该缺口：当智能体将多个查询批处理为单个 shell 构造时，调度-合成管道会产生合并且部分归因的输出。

Plan 阶段将诊断翻译为 harness 内双表面修复：在工具结果 mediator 中增加额外注释分支，在工具调用前钩子链中添加预调用拒绝门，阻断批处理 shell 模式。Implement 阶段将修复落地为单次 git commit，修改三个文件共 177 行插入和 1 行删除——修改直接触及 harness 本身，而非任何文本可变制品。Code-Review 批准变更后，trial worker 验证通过，Verdict 阶段观察到工具排序和结果报告维度的广泛提升，判定候选版本已收敛。

这一案例最引人注目的启示在于故障定位的精确性。MOSS 没有试图通过更详细的提示来"教会"智能体更仔细地解析结果，而是直接修改了智能体用来解析结果的机制本身——相当于不是给工人更详细的书面指示，而是直接改进了工厂装配线上的分拣机械。

综合价值与局限

MOSS 在理论层面的最大贡献，是将自进化智能体的可编辑范围从"智能体知道什么"扩展到了"智能体如何运作"。先前系统将被进化的智能体视为拥有可变知识库的固定架构实体，而 MOSS 将其视为可以从底层重新塑造的流动结构。这种视角转换类似于从行为主义到认知架构的跃迁。

从实际应用角度，MOSS 的潜在受益者主要是运行生产级智能体系统的组织和个人开发者。用户同意门控设计尤为值得称赞：它没有做简单的技术自主性与人类监督二选一，而是将最终部署决策保留给人类，同时自动化了从故障发现到候选验证的全部中间过程。

论文最为令人信服的方面在于其工程严谨性。从自动扫描引擎的 cron job 设计，到 trial worker 的网络隔离，再到交换监督的回滚协议，每个组件都体现了对生产环境约束的深刻理解。特别是将用户状态 volume 独立于容器镜像的设计，以及从独立记录中读取回滚目标的防御性设计，展示了作者对系统可靠性和故障恢复的前瞻性思考。

局限性方面，首先系统对外部编码智能体的能力有较高依赖；其次 trial worker 在隔离环境中运行，缺乏真实用户状态和并发生产流量；更深层的局限在于基础模型能力的上限——当故障根源于模型无法正确执行某种推理类型时，任何 harness 修改都无法绕过。MOSS 的 Verdict 阶段能够识别 FUNDAMENTAL_LIMIT_MODEL 并终止循环，但这意味着系统在面对模型能力不足导致的故障时会"诚实认输"。

延伸阅读与思考

学术线索中，SICA（Robeyns et al., 2025）回答"能不能"的问题；Darwin Gödel Machine（Zhang et al., 2025）引入变体 archive 概念；HyperAgents（Zhang et al., 2026）让元过程本身可编辑；Meta-Harness（Lee et al., 2026）证明执行轨迹反馈优于基准分数。MOSS 将这四项工作的理论遗产整合到生产级 substrate 上，用生产故障证据替代基准分数，完成了从"探索性范式"到"定向修复范式"的关键转变。

应用级线索中，Hermes Agent（Nous Research, 2024）、DSPy（Khattab et al., 2023）、GEPA（Agrawal et al., 2025）、Capability Evolver（Wang et al., 2026）、SkillClaw（Ma et al., 2026）、GenericAgent（Liang et al., 2026）和 EvoAgentX（Wang et al., 2025）分别占据文本可变空间的不同层。MOSS 与这些系统的关系是严格超集关系。

未来方向包括：进化循环的自动化触发机制智能化、batch 策展策略丰富化（引入跨会话故障聚类）、多迭代进化中的 credit assignment 问题、以及将源代码级进化与文本可变进化结合形成分层进化系统。

最深层开放问题或许是：当智能体能够修改自身 harness 时，如何确保其修改始终与人类意图对齐？MOSS 通过用户同意门控提供了务实解决方案，但随着系统复杂度增加，人类审阅者可能越来越难以理解候选修改的全部含义——这引向了可扩展监督（scalable oversight）的经典问题。

这篇论文最引人深思的方面是它揭示的深层不对称：智能体系统中最关键的故障往往发生在最不可见的层次。路由逻辑、状态转换、钩子排序——这些构成智能体"神经系统"的代码结构，在传统的自进化框架中被系统性地忽略。MOSS 打破了这个禁忌，提出了一个看似激进实则自然的观点：如果智能体要真正自主学习，它必须能够触及学习机制本身。这种自我指涉的开放性，或许正是通向更高级自主性的必要门槛。

Topics: