SkillOpt: Executive Strategy for Self-Evolving Agent Skills

Title: SkillOpt: Executive Strategy for Self-Evolving Agent Skills
Authors: Yifan Yang, Ziyang Gong, Weiquan Huang, Qihao Yang, Ziwei Zhou, Zisu Huang, Yan Li, Xuemei Gao, Qi Dai, Bei Liu, Kai Qiu, Yuqing Yang, Dongdong Chen, Xue Yang, Chong Luo
Venue: arXiv:2605.23904
Year: 2026
Code URL: https://aka.ms/SkillOpt
Pages: 27

研究摘要 (Research Summary)

随着大型语言模型（Large Language Model, LLM）从单纯的对话系统逐步演化为能够调用工具、操作文件、执行代码的 autonomous agent，一个根本性的适应问题浮现出来：当模型权重不可更改时，如何让代理在特定领域中表现出专业级的执行能力？传统的适应路径——微调权重（fine-tuning）——对于闭源前沿模型往往不可行，而对于开源模型则代价高昂；手工编写的提示词（prompt）或一次性生成的技能文档（skill document）又常常在面对复杂域外分布时显得脆弱不堪。Yang 等人提出的 SkillOpt 正是为了回答这一核心问题：如果技能文档是代理的适应层，那么它本身应当如何被系统地、可控地、可复现地优化？

这一工作的核心洞见在于，将深度学习中成熟的优化哲学移植到自然语言空间。作者们主张，技能文档不应被视为静态提示词，而应被当作一个可训练的外部状态（external state）；而技能编辑过程则应当遵循与权重空间优化同样的纪律性——通过 rollout batch 控制证据噪声，通过文本化的学习率（textual learning rate）限制每一步的编辑幅度，通过 held-out validation gate 过滤有害更新，通过 rejected-edit buffer 将失败转化为负反馈，再通过 epoch-wise slow/meta update 捕获跨周期的长期规律。这种将深度学习训练循环的抽象概念——batch、learning rate、validation、momentum——一一映射到文本编辑操作上的思路，构成了 SkillOpt 的理论基石。

SkillOpt 的具体贡献可以概括为三个层面。第一，它提出了首个系统性的可控文本空间优化器（controllable text-space optimizer），将代理技能学习重新框架化为对外部自然语言状态的优化问题。第二，它在六个涵盖问答、电子表格、文档推理、数学和具身决策的基准测试上，对七个目标模型（从前沿级 GPT 到小规模 Qwen）和三种执行环境（直接对话、Codex 工具循环、Claude Code 工具循环）进行了迄今为止最广泛的实证研究，结果显示 SkillOpt 在全部 52 个评估单元中均为最优或并列最优。第三，它通过跨模型、跨执行环境和跨基准测试的迁移实验，证明了优化后的技能工件（skill artifact）具有真正的可复用性——一个紧凑的 best_skill.md 文件可以在不同模型规模、不同工具链甚至邻近任务之间保持正向增益。

实验结果令人瞩目。在直接对话模式下，SkillOpt 将 GPT–5.5 的六基准平均得分从 58.8 提升至 82.3，绝对增益达 +23.5 分；在 Codex 和 Claude Code 工具循环中分别带来 +24.8 和 +19.1 分的提升。更关键的是，这些增益并非来自冗长的提示堆砌，而是来自仅 1–4 次受控编辑后产生的 300–2,000 token 的紧凑技能文档。这一发现暗示了一个颇具前瞻性的图景：未来的代理系统或许不需要为每个任务重新训练模型权重，而是可以通过优化一个可审计、可迁移、可解释的自然语言技能文档来实现领域适应——这与当前深度学习范式中"权重即知识"的隐含假设形成了耐人寻味的对照。

理论框架 (Theoretical Framework)

SkillOpt 的理论根基建立在两条交汇的思想脉络之上：一是将语言代理的适应层从模型权重外移到自然语言工件上的趋势，二是将深度学习优化器的控制机制抽象并移植到离散文本空间的尝试。近年来，从 ReAct 到 Toolformer，从 DSPy 到各类 agentic execution harness，研究者们越来越认识到，代理的行为不仅取决于模型内部的权重分布，更取决于注入其上下文的程序性知识（procedural knowledge）——即如何调用工具、如何遵循领域惯例、如何格式化输出。SkillsBench 和后续的 SoK 工作正式将技能定义为可复用的程序性知识载体，涵盖工具策略、适用条件、执行例程和支持资源。然而，这些工作大多聚焦于技能的发现、存储和共享，而非技能的训练。SkillOpt 填补的正是这一空白：它将技能视为一个可优化的参数化对象，只不过这个"参数"存在于文本空间而非权重空间。

为了形式化这一思想，作者们首先定义了技能优化的问题设定。设 $s$ 为一个自然语言技能文档，在执行前被插入代理上下文中； $M$ 为被冻结的目标模型； $h$ 为特定的执行环境（harness）。对于任务 $x$ ，执行产生轨迹 $τ$ 和标量得分 $r$ ：

(τ (s), r (s)) = h (M, x, s), r (s) \in [0, 1] .

这里， $τ$ 记录了完整的交互历史——包括消息、工具调用、观测值和最终答案——而 $r$ 则由自动验证器或基准测试的评分器给出。SkillOpt 利用训练集 $D_{tr}$ 生成候选技能集合 $C (D_{tr})$ ，在验证集 $D_{sel}$ 上选择最优技能，最终在独立测试集 $D_{test}$ 上报告性能：

s^{⋆} = \arg max_{s \in C (D_{tr})} \frac{1}{| D_{sel} |} \sum_{x \in D_{sel}} r (s),

Test (s^{⋆}) = \frac{1}{| D_{test} |} \sum_{x \in D_{test}} r (s^{⋆}) .

这三个数据切分的分工至关重要：训练集提供优化所需的证据流，验证集充当训练循环中的"闸口"，测试集则仅用于最终的无偏评估。这种设计与深度学习中的训练/验证/测试范式完全一致，但其中的"参数"是文本编辑操作而非梯度更新。

SkillOpt 的核心概念可以借助深度学习的类比来理解。Rollout batch size 相当于梯度估计中的采样噪声控制：小批量更新快但 noisy，大批量能在技能变化前暴露更多 recurring patterns。Reflection minibatch 则将单条轨迹的轶事级修复提升为跨样本的系统级诊断——当代理 consistently 搜索错误来源、以错误格式书写答案、或未能验证工具结果时，minibatch 分析才能识别出可复用的程序性错误。文本学习率 $L_{t}$ 是另一个关键概念：它不是传统意义上连续空间中的步长，而是每一步允许应用的最大编辑数量。这种 bounded update 的设计是为了防止无约束重写（uncontrolled rewriting）带来的灾难性遗忘：如果不加限制，一次激进的技能重写可能抹去已有有效规则、引入不兼容指令、或对局部失败过拟合。通过将候选编辑池裁剪至前 $L_{t}$ 个，SkillOpt 在保留技能连续性的同时，仍允许其逐步习得新程序。

学习率的调度策略进一步增强了稳定性。SkillOpt 支持常数、线性、余弦和自主（autonomous）四种调度。默认的余弦调度（cosine schedule）在优化初期允许较大的编辑幅度，以便快速覆盖基础程序空白；随后逐渐衰减至较小的 $L_{t}$ ，使后期阶段聚焦于细节整合与规则精炼。这种从粗到细的编辑节奏，与深度学习中的学习率预热和退火策略异曲同工。

验证门控（validation gate）是整个训练循环的安全阀。每一个候选技能必须在 $D_{sel}$ 上取得严格优于当前技能的选择得分才能被接受；平局即拒绝。这一设计将反射式编辑从"无条件自我修改"转变为"提出-测试"优化（propose-and-test optimization）。其必要性源于一个深刻的观察：在文本空间中，看似合理的诊断性编辑可能实际上损害目标模型的表现——语言模型的推理过程对提示词的细微变化高度敏感，"优化器"与"执行者"之间不存在可微的梯度传播，因此必须有外部验证来锚定编辑方向。被拒绝的编辑并非浪费：它们被存入 rejected-edit buffer，记录失败模式和编辑导致的得分降幅，供同一 epoch 内的后续反射调用参考，从而形成负反馈回路。

Epoch-wise slow/meta update 则扮演着"动量项"（momentum）的角色。Fast intra-epoch updates 从当前 batch 学习；slow update 从相邻 epoch 的对比中学习。在每个 epoch 结束时，SkillOpt 在相同训练样本上分别使用上一 epoch 的技能和当前技能执行 rollout，将结果归类为改进（improvements）、退化（regressions）、持续失败（persistent failures）和稳定成功（stable successes）。优化器模型据此撰写一段纵向指导（longitudinal guidance），写入受保护的 slow-update 区域。这段指导不会被频繁覆盖，因为它位于 step-level edits 不可触及的 markup-fenced protected section 中。Meta skill 则是优化器侧的专属记忆：它总结哪些编辑模式有效、哪些有害、哪些失败跨 epoch 持续存在，并被前置到未来优化器提示词中，但绝不随部署的技能一起交付。这种"关注点分离"（separation of concerns）确保了部署工件保持紧凑和可移植，而训练过程可以享有更丰富的编辑历史。

这些理论组件并非孤立存在，而是形成了一个逻辑严密的依赖链条：minibatch 证据的质量决定了诊断的可靠性；bounded edit budget 保证了技能版本的连续性；validation gate 将文本空间中的探索锚定到可观测的绩效改善；rejected buffer 将探索失败转化为可利用的信息；slow update 和 meta skill 则使短期局部优化能够积累为长期全局规律。整个框架的隐含假设是：目标任务的反馈信号足够可靠（自动评分或确定性验证），训练数据具有足够的覆盖面以暴露 recurring patterns，且优化器模型具备足够的推理能力从轨迹中提取程序性教训。当这些假设满足时，SkillOpt 将技能编辑从艺术变成了工程。

技术架构 (Technical Architecture)

SkillOpt 的技术系统可以被理解为一个双层代理架构：底层是冻结的目标执行代理（target agent），负责在特定任务上消耗当前技能并生成带评分的轨迹；顶层是优化器代理（optimizer agent），负责阅读轨迹、诊断成败、提出结构化编辑，并管理训练状态。两者之间通过技能文档 $s_{t}$ 和一个轻量级的 harness adapter 进行交互，adapter 负责构造训练/评估 batch、将技能注入代理上下文、调用原生执行环境，并返回带评分的完整轨迹。这种设计的最大 practical advantage 在于 harness-agnostic：同一个优化器核心可以直接服务于单轮问答、多轮电子表格代码生成、持久化具身环境交互，乃至 Codex 和 Claude Code 风格的软件工程循环——只要对应的 adapter 实现了统一的 batch 构造和轨迹采集接口。

数据在系统中的流动遵循一个清晰的闭环。首先，优化器从训练集 $D_{tr}$ 中采样一个 rollout batch，将当前技能 $s_{t}$ 注入目标代理的上下文，触发任务执行。执行环境返回的轨迹不仅包含最终答案，还包括完整的元数据：消息历史、工具调用序列、观测反馈、命令输出、电子表格预览、文档引用、紧凑执行摘要等。这个 batch 构成了当前优化步骤的"证据单元"。接下来，优化器将轨迹按成败分离，再分别划分为大小为 $B_{m}$ 的 reflection minibatches。对于失败 minibatch，分析器（analyst）被要求识别最具普遍性的系统性失败模式，并提出针对性的 skill patch；对于成功 minibatch，分析器则提取跨样本的通用成功模式，以便将其固化为技能规则。每条分析调用最多产生 $L_{t}$ 条编辑建议，确保局部输出本身也是受控的。

这些分散的局部提案随后经历层级化的合并流程。第一层合并分别 consolidate 失败驱动的编辑和成功驱动的编辑：去重、解决冲突、优先保留跨多个独立分析一致出现的模式。第二层合并将失败编辑（高优先级）与成功编辑（低优先级）融合，形成最终的候选编辑池。合并后的编辑池进入 ranking 阶段，优化器按系统性影响、互补性、通用性和可执行性四个标准排序，最终裁剪至前 $L_{t}$ 条。这一 hierarchical merge-and-rank 机制的设计哲学是：单个轨迹的反思容易产生轶事级修复，只有经过跨 minibatch 的聚合与排序，编辑建议才能代表 recurring evidence 而非随机噪声。

被选中编辑以 patch 模式应用到当前技能文档上。Patch 模式支持四种原子操作：append（在末尾追加）、insert_after（在指定标题后插入）、replace（替换精确匹配的文本）和 delete（删除精确匹配的文本）。这种受限的编辑词汇表与 rewrite 模式形成对照——后者允许优化器基于少量建议触发全篇重写。Patch 模式的优点是局部性和可追溯性：每一条编辑都有明确的 source location，edit_apply_report.json 记录了每条编辑的接受/跳过状态，使得 best_skill.md 的每一次变更都有可审计的来源。更重要的是，step-level edits 无法触及被  和  标记包围的受保护区域，从而确保了 fast local changes 与 slow epoch-wise consolidation 的物理隔离。

候选技能生成后，系统进入验证阶段。候选技能 $\tilde{s}$ 在验证集 $D_{sel}$ 上重新执行评估。若其选择得分严格超过当前技能得分，则成为新的当前技能；若同时超过历史最佳得分，则被导出为 best_skill.md。否则，候选技能被拒绝，其编辑内容和观测到的失败模式被追加到 epoch-local rejected-edit buffer 中。这个 buffer 在同 epoch 的后续步骤中对优化器可见，使其能够避免重复失败的编辑方向，聚焦于尚未解决的问题。值得注意的是，验证阶段的评估使用与训练阶段完全相同的目标模型和 harness，这保证了"训练-部署"的一致性——被接受的技能在面对新任务时的行为与其在验证时的行为分布一致。

Epoch-wise slow update 在 epoch 边界触发。系统采样固定数量的训练任务（默认 20 条），分别用上一 epoch 末的技能和当前 epoch 末的技能执行，对比结果后请求优化器撰写战略指导。这段指导直接覆盖 slow-update 保护区中的内容，且新产生的候选技能仍需通过验证门控。Meta skill 的更新与 slow update 并行发生，但作用于优化器提示词的上下文而非技能文档本身。它总结了跨 epoch 的编辑生态：哪些类型的编辑被反复接受、哪些反复失败、哪些失败模式具有持久性、未来优化器应警惕哪些退化风险。这种"元认知"层使 SkillOpt 的训练过程具备了某种自指性——优化器不仅在优化技能，也在优化自身的优化策略。

在整个架构中，一个精妙的权衡无处不在：系统既需要足够的编辑自由度来捕捉新程序，又需要足够的约束来防止文本空间中的"梯度爆炸"。Bounded textual learning rate 是这个权衡的第一道防线；validation gate 是第二道；rejected buffer 将失败的探索转化为信息资产；slow update 和 meta skill 则提供了超越单步视野的稳定性。这些机制共同构成了一个闭环控制系统，其中优化器的"感知"来自轨迹证据，"决策"表现为结构化编辑，"执行"通过 patch 操作完成，"反馈"则来自验证得分和被拒编辑的历史。这与其说是一个提示词工程工具，不如说是一个将自然语言空间当作参数流形、将编辑操作当作优化步的机器学习系统——只不过这里的"参数"是人类可读的文本，"梯度"是结构化诊断，"损失面"是验证集上的任务得分。

实验评估 (Experimental Evaluation)

SkillOpt 的实验设计围绕四个核心问题展开：优化后的技能是否优于无技能、人工技能、一次性 LLM 技能、提示词优化方法（TextGrad、GEPA）和技能进化方法（Trace2Skill、EvoSkill）？同一优化循环是否适用于直接对话、Codex 和 Claude Code 三种执行环境，以及从前沿 GPT 到小规模 Qwen 的七种目标模型？哪些优化器控制机制真正贡献于性能提升？最终产出的技能工件长什么样，代价几何？

实验覆盖的六个基准测试刻意保持了多样性。SearchQA 测试抽取式问答；SpreadsheetBench 评估涉及真实 openpyxl/pandas 运行时的电子表格代码生成与工具使用，最多可达 30 轮交互；OfficeQA 测试本地文档推理，涉及最多 24 次工具调用；DocVQA 和 LiveMathematicianBench 分别覆盖多模态文档问答和数学多选推理；ALFWorld 则考验持久化具身环境中的序列决策，每轮最多 50 步。模型家族涵盖 GPT 系列（5.5、5.4、5.4-mini、5.4-nano、5.2）和 Qwen 系列（3.5–4B、3.6–35B-A3B），执行环境包括直接对话（单轮 completion）、Codex CLI 沙盒和 Claude Code CLI。所有数据集均采用确定性的训练/选择/测试切分（默认 2:1:7），选择集仅用于技能接受决策， headline 数字全部来自独立的测试集。

表 1 呈现了主实验的完整结果矩阵。在所有 52 个（模型、基准、环境）评估单元中，SkillOpt 均位列最优或并列最优。这一统治力跨越了全部模型规模：从前沿级 GPT–5.5 到轻量级 GPT–5.4-nano，从闭源 GPT 到开源 Qwen，SkillOpt 在每个直接对话基准上均拔得头筹。增益的绝对幅度尤其引人注目。GPT–5.5 在直接对话中的六基准平均分从 58.8 跃升至 82.3（+23.5），其中 SpreadsheetBench 从 41.8 飙升至 80.7（+38.9），OfficeQA 从 33.1 提升至 72.1（+39.0），LiveMathematicianBench 从 37.6 增长至 66.9（+29.3）。即使在 no-skill 表现已接近天花板的 SearchQA 上，SkillOpt 仍挤出 +9.6 分的提升。对较小模型而言，相对增益更为显著：Qwen3.5–4B 的 ALFWorld 得分从 34.3 提升至 69.4（翻倍），GPT–5.4-nano 的 DocVQA 从 30.8 提升至 80.2（+49.4）。这些结果支持一个核心论断：一个紧凑的技能工件能够为缺乏相关程序性知识的小型模型补充其权重中尚未编码的领域规则。

工具循环环境中的表现同样出色。在 Codex harness 上，SkillOpt 在 GPT–5.5 的全部五个评估基准中均为最优，五基准平均增益 +24.8，较次优基线 EvoSkill 高出 +14.0。在 Claude Code harness 上，五基准平均增益 +19.1，较 EvoSkill 高出 +3.2。EvoSkill 本身已将 Codex 的 SpreadsheetBench 从 27.5 提升至 67.5，但 SkillOpt 在此基础上再增 +17.5（至 85.0），说明 bounded textual learning 和 validation gating 带来的增量价值超越了纯粹的失败分析进化。

基准测试	No skill	Human	LLM	Trace2Skill	TextGrad	GEPA	SkillOpt
SearchQA	77.7	81.8	80.9	82.4	81.4	84.8	87.3
SpreadsheetBench	41.8	72.9	43.2	49.6	41.1	73.6	80.7
OfficeQA	33.1	66.9	51.7	65.7	42.0	63.9	72.1
DocVQA	78.8	90.1	89.6	90.6	87.2	89.1	91.2
LiveMath	37.6	38.4	40.0	52.0	49.2	43.2	66.9
ALFWorld	83.6	91.8	93.3	87.3	82.8	85.8	95.5

表：GPT–5.5 直接对话环境下的基准测试得分对比（百分比）。加粗表示最优值。数据源自原文 Table 1。

消融实验（表 2 和表 3）揭示了哪些设计选择真正驱动了这些收益。训练证据量（panel a）对程序性基准影响显著：SpreadsheetBench 随训练数据从 1 例增至 100% 从 47.5 爬升至 78.0，而 SearchQA 在 20% 数据后即趋于饱和。反射 minibatch 大小（panel b）和 rollout batch 大小（panel c）的扫描显示，headline 增益并非 fragile prompt-search batch size 的产物——在宽范围内 SearchQA 波动不超过 ±1.5 分，SpreadsheetBench 保持在 75.0–77.9 区间。这说明 SkillOpt 的 robustness 来自"拥有足够评分证据"这一 genuine effect，而非对特定超参数的过度拟合。

文本学习率（panel d、e）的比较直接检验了 bounded update 的必要性。当学习率从 1 扫至 16，各基准在 moderate 值附近表现最优；而在组件消融中，完全移除学习率预算（"without lr"）导致 SearchQA/SpreadsheetBench/LiveMath 分别跌至 84.6/75.7/57.3。余弦、常数和线性三种调度器的表现相近（常数 87.3/80.7/62.1，余弦 87.1/77.5/61.3，线性 87.2/72.9/62.9），表明 bounded-update 的故事不依赖单一调度器。Rejected-edit buffer 的移除造成 1.6–4.6 分的下降，说明它作为稳定器而非部署机制发挥作用。Slow/meta update 的缺失则带来最剧烈的退化：在默认设置下移除 meta skill 和 slow update 后，SpreadsheetBench 从 77.5 暴跌至 55.0（-22.5），是整个消融套件中最大的降幅。图 3 进一步显示，验证检查点选择的技能与最终在独立测试集上的泛化性能高度一致，证明了 validation gate 确实在筛选具有泛化能力的技能，而非仅仅过拟合选择集。

组件设置	SearchQA	SpreadsheetBench	LiveMath
lr=4 (默认)	87.1	77.5	61.3
dynamic lr	85.8	71.8	54.0
without lr	84.6	75.7	57.3
with rejected buffer	87.1	77.5	61.3
without rejected buffer	85.5	72.9	58.9
meta + slow update	87.1	77.5	61.3
without meta skill	85.1	75.7	58.1
without meta + slow	86.3	55.0	59.7

表：GPT–5.5 上的关键组件消融实验。浅蓝行标记各组默认设置。数据源自原文 Table 3。

综合来看，实验证据强有力地支持了 SkillOpt 的中心设计命题：在固定目标模型、固定执行环境和固定评估器的前提下，仅通过优化一个可复用的技能工件，即可实现当前无权重更新适应策略中的最强性能。收益的主要来源并非更长的提示词或更大的优化器容量，而是反馈驱动的受控技能编辑——人类技能和一次性 LLM 技能无法根据 rollout 观察纠正失败；Trace2Skill 挖掘轨迹教训但缺乏验证门控；TextGrad 和 GEPA 优化提示词而非持久化技能状态；EvoSkill 虽为最强 harness-side 竞争者，却缺乏 bounded textual learning rates 和 rejected-edit memory。

案例研究 (Case Studies)

论文通过两个代表性运行揭示了优化后的技能究竟"学"到了什么。第一个案例是 ALFWorld，使用 GPT–5.4-nano 作为学生、GPT–5.5 作为教师。初始技能描述了一个通用的家庭计划：搜索目标物体、拾取、必要时变换、放置到目的地。经过 SkillOpt 的迭代优化，这个泛化策略演化为一个带有状态记忆的有限状态执行策略。具体而言，技能学会了精确的对象名称匹配——杯子（mug）、茶杯（cup）、平底锅（pan）和锅（pot）不再被混为一谈；增加了已访问位置的记忆，优先选择未探索的容器而非反复检查可能但已耗尽的地点；还引入了目的地记忆、拾取-进度锁（pick-two progress locks）和直接完成规则——一旦代理能够清洁、加热、冷却或放置以完成下一个子目标，就应立即采取该可行动作，而非再次检查、关闭或验证。从抽象层面看，技能从"搜索-变换-放置"的通用启发式，进化为带有对象身份确认、搜索边界管理、进度锁定和循环打断机制的精密策略。这一案例清晰地展示了 SkillOpt 如何将统计观察（哪些动作序列导致成功，哪些陷入循环）转化为可被冻结模型遵循的程序性约束。

第二个案例是 SpreadsheetBench，使用 GPT–5.5 同时作为学生和优化器。初始技能已经指导代理使用 Python 电子表格库并保留不相关的工作簿内容。经过优化，这个通用自动化工作流转变为一种"工作簿取证"（workbook forensics）策略。技能学会了首先检查实际工作簿而非依赖预览，跨多个工作表定位标题和目标范围，在查找或聚合前规范化键和单元格类型，并在结构编辑期间保留格式。尤为关键的是，技能增加了一条针对公式风格提示的规则：当评分器读取单元格值时，代理应计算并写入求值后的静态值，即使提示中提到了 INDEX/MATCH 或 XLOOKUP 等公式。后续编辑进一步要求填充完整的目标范围（包括当前为空的单元格），将辅助计算保留在 Python 中而非添加工作簿伪影，以及保存后重新打开工作簿以检查边界行和剩余空白。这些规则并非特定于某一道题目——它们是对电子表格任务中 recurring failure modes 的程序性回应：评分器读取的是值而非公式、边界单元格容易被遗漏、工作簿状态在多次写入后可能不一致。

从这两个案例中可提炼出三点深刻洞察。首先，学到的规则始终是程序性的（procedural）而非实例性的（instance-specific）——没有任何规则提到了具体的问题、文件或实体名称。这意味着技能具备跨任务的通用性，其内容类似于一位经验丰富的人类实践者在接触基准测试一天后会写下的操作守则。其次，规则系统性地编码了前沿模型在零样本状态下缺乏的纪律性：答案格式约束、证据绑定、工作簿结构优先推理、搜索边界管理和规范实体选择。这些恰恰是程序性任务中最容易出错而事实性任务中相对不敏感的维度，也解释了为何 SpreadsheetBench、OfficeQA 和 LiveMathematicianBench 上的增益最为巨大。第三，优化过程并非对初始技能的替换，而是围绕观察到的失败模式逐步添加紧凑约束的"补丁累积"——ALFWorld 的初始通用框架被保留，但在其上叠加了状态管理补丁；SpreadsheetBench 的 Python 库调用指南被保留，但补充了取证和验证补丁。这种增量式、可审计的演进模式，与深度学习中的 fine-tuning 形成对照：后者在权重空间中的变化是不可解释的，而 SkillOpt 在文本空间中的每一步变化都有明确的来源和目的。

值得注意的是，论文并未展示明显的边缘失败案例——这本身可能是 validation gate 效力的体现：有害的编辑方向在验证阶段即被拒绝，永远不会进入部署的技能文档。然而，这也意味着读者无法直接观察到哪些类型的编辑提案被系统性地过滤掉了；从 rejected-edit buffer 的设计来看，重复性失败、过于具体的轶事修复、以及与现有规则矛盾的提案可能是主要的被拒绝类别。

综合价值与局限 (Synthesis — Value and Limitations)

SkillOpt 的理论意义在于，它将代理技能优化从一个依赖人类直觉或启发式搜索的工艺，转变为一个受控的、可复现的、可分析的学习过程。通过将深度学习训练循环的抽象概念——batch size、learning rate、validation、momentum、negative sampling——系统性地映射到文本编辑操作，作者们提供了一套全新的概念工具来思考和设计自然语言空间的优化器。这不仅对技能学习领域本身有直接影响，也为更广泛的"离散空间优化"（discrete space optimization）研究——如提示词优化、代码搜索、神经架构搜索的文本变体——提供了可借鉴的框架。

在实际应用层面，SkillOpt 的核心价值主张是三重可迁移性：跨模型规模、跨执行环境、跨邻近任务。一个在某个模型上优化过的技能文档可以在更小或更大的模型上保持正向增益；一个在 Codex 沙盒中训练的技能可以在 Claude Code 环境中复用；一个数学基准上训练的技能可以在邻近的数学基准上提供迁移收益。这意味着企业或研究机构可以投入一次性训练成本，产生一个经过审计的 compact skill artifact，然后在多个部署场景中摊销这份成本——无需修改模型权重，无需暴露内部架构，只需在系统提示前追加一段 300–2,000 token 的文本。对于需要合规审计、可解释性或快速迭代的应用场景，这种"文本即适应层"的范式具有无可替代的吸引力。

该论文的优势体现在多个维度。方法论上，它是首个将深度学习优化器的完整控制机制引入文本空间的系统，其设计的系统性和概念清晰度远超此前的提示词优化或技能进化工作。实证上，52/52 的全胜记录和跨模型/环境/任务的广泛覆盖，使其结论具有异常的 robustness。工程上，patch 模式、protected slow-update section、edit_apply_report.json 等实现细节体现了对可审计性和可部署性的深思熟虑。然而，诚实的局限性同样值得讨论。

首要限制在于对可靠反馈信号的依赖。SkillOpt 的验证门控要求每个任务都能产生可靠的标量得分——自动验证器、精确匹配指标或可执行检查。对于开放式领域，成功标准是主观的、多维的或评估成本高昂的（如创意写作、开放式对话、复杂商业决策），validation gate 的设计需要扩展为基于人类偏好或模型评估的更复杂机制，而这可能引入新的偏差和不稳定性。其次，尽管部署后的技能仅是一个静态文本文件，但训练过程需要消耗额外的 rollout 计算和优化器 API 调用。表 6 显示，训练 token 成本从 20.8M（OfficeQA，+39.0 分）到 213.8M（SearchQA，+9.6 分）不等，按每绝对测试点增益计算为 0.6M–46.4M tokens。对于一次性任务，这种前期投入可能不具吸引力；但对于高频复用的领域技能，成本可以被充分摊销。第三，SkillOpt 刻意优化单一技能而非技能库，这保证了部署简洁性，但也意味着面对高度异构、需要多种 disjoint 程序的领域时，单一技能可能力有不逮。最后，优化后的技能仍可能编码训练分布中的领域特定启发式，在迁移到 substantially different 的模型、环境或任务设置时，需要谨慎的 held-out 评估来检测分布偏移风险。

从更广阔的学术趋势来看，SkillOpt 恰逢其时地回应了代理系统领域的一个核心张力：模型能力的增长速度远超权重更新基础设施的适配速度。在闭源前沿模型日益成为行业标准部署选择的背景下，模型权重的黑箱化使得传统的 fine-tuning 和 RLHF 难以直接应用。SkillOpt 表明，适应层可以且应当被外推到模型外部，以自然语言形式存在，并以与权重训练同样严谨的方法论进行优化。这可能预示着一种范式转移：未来的代理系统或许由"固定基础模型 + 可训练技能层 + 可训练记忆层"组成，其中技能层负责领域程序性知识，记忆层负责会话上下文，而基础模型负责通用推理——三者以清晰接口解耦，各自遵循最适合自身的优化逻辑。

延伸阅读与思考 (Further Reading and Reflection)

SkillOpt 直接建立在几条活跃的研究脉络之上。在提示词优化方向，GEPA（Agrawal 等人，2025）展示了轨迹反馈可以指导反射式提示进化，并在若干语言代理任务上超越强化学习；TextGrad（Yuksekgonul 等人，2024）将梯度下降的概念推广到自然语言空间，通过文本反馈迭代优化提示词。GEPA 和 TextGrad 都强调了利用执行反馈进行语言级优化的可能性，但它们主要优化的是单次调用提示或系统配置，而非可持久化、可迁移的技能文档。SkillOpt 将这种"语言级可优化性"的思想向前推进了一步：它不仅优化文本，还优化文本作为代理状态的结构——包括编辑预算、验证门控、负反馈缓冲和跨周期元更新——从而将提示优化提升到了训练优化的层次。

在技能构建与进化方向，Trace2Skill（Ni 等人，2026）将轨迹级经验蒸馏为可迁移代理技能，SkillFoundry（Shen 等人，2026）从异构科学资源中构建自进化技能库，EvoSkill（Alzubi 等人，2026）通过失败分析实现技能文件夹的进化。这些工作共享了"从经验中学习技能"的愿景，但侧重点各不相同：Trace2Skill 强调蒸馏而非迭代验证；SkillFoundry 强调知识库的广度而非单一技能的深度；EvoSkill 虽与 SkillOpt 最接近，但缺乏 bounded textual learning rates 和 rejected-edit memory 带来的稳定性控制。SkillOpt 的独特定位在于，它研究的是一个更狭窄但也更基础的问题——如何像训练神经网络一样训练单个技能文档——并为此 borrowed 了深度学习优化器的完整控制面板。

对于同一问题，当前存在几种替代哲学。手工编写技能依赖人类领域专家的时间投入和直觉判断，上限明显但可解释性最高。一次性 LLM 生成技能利用大模型的先验知识快速产生初稿，但缺乏反馈驱动的校正能力，常出现"看似合理实则有害"的规则。强化学习方法（如 SkillRL）直接在动作空间或参数空间搜索策略，理论上可以达到更高上限，但需要可微环境或大量交互样本，且难以产生可审计的自然语言工件。SkillOpt 占据了一个有趣的中间地带：它不具备 RL 的全局搜索能力，但通过 deep-learning-style controls 获得了比启发式搜索更稳定、比人类编写更可扩展的优化路径。

这一工作开启的未来方向丰富而诱人。最自然的扩展是技能库（skill library）层面的优化：当前 SkillOpt 针对单一领域训练单一技能，而真实世界的代理往往需要协调多个领域技能。如何设计库级优化——包括技能间的依赖关系、调用路由和共享基础设施——是一个开放问题。另一个方向是 reward-free 或 preference-driven 的验证门控：对于缺乏自动评分器的开放式任务，如何利用人类偏好或模型评判来替代标量得分 gate？此外，将优化后的技能自我蒸馏回目标模型的权重空间——作为向最终 weight-level adaptation 迈进的 stepping stone——也为闭环代理进化提供了令人兴奋的想象空间。

该领域最深层的未解挑战，或许在于如何为文本空间优化建立类似于权重空间优化的完整理论。深度学习拥有丰富的收敛理论、泛化界和正则化分析，而文本空间编辑的离散性、非光滑性和高度非凸性使得类似的理论分析极为困难。SkillOpt 的实证成功提示了这种理论的可能性：bounded updates 保证了状态空间的局部连通性，validation gate 提供了某种"损失面"的采样机制，rejected buffer 和 slow update 则起到了正则化和动量的作用。如果能将这些直觉形式化为可证明的收敛条件或泛化界，将为整个"离散空间优化"领域奠定坚实的理论基础。

最令人深思的或许不是 SkillOpt 的具体技术细节，而是它所代表的认识论转向：在大型语言模型时代，知识不仅可以存在于数十亿参数的权重矩阵中，也可以存在于一个经过严格优化、可人类阅读、可跨系统迁移的千 token 文本文件中。这种"外部化知识"与"内部化知识"之间的张力，可能重新定义我们对 AI 系统适应、学习和进化的理解。如果未来的前沿模型真的足够通用，那么领域专精化的关键或许不在于改变模型本身，而在于为它装备正确的程序性"心智模型"——而 SkillOpt 正是训练这种心智模型的第一台系统性引擎。

Topics: