SkillOS: Learning Skill Curation for Self-Evolving Agents

基本信息


1. 研究摘要 (Research Summary)

在现代人工智能系统从一次性任务解决者向持续进化型智能体转变的过程中,一个根本性的瓶颈正在浮现:当基于大语言模型(LLM)的智能体被部署到持续的任务流(streaming tasks)中时,它们往往仍然是"一次性"的问题求解器——每次遇到新任务都从头开始,无法从过去的交互经验中学习和积累。这种缺乏自我进化(self-evolution)能力的局限,使得智能体在面对需要长期积累和渐进式能力提升的现实场景时显得力不从心。SkillOS 这篇论文所解决的核心问题,正是如何让智能体从经验中自动地、高质量地提炼和整理可复用的技能(reusable skills),从而构建一个能够随时间推移不断自我完善的智能体系统。

这一问题的现实重要性不言而喻。想象一个在线购物助手,它每天处理成百上千的用户查询;如果它能从每次交互中学习到"如何快速筛选符合特定条件的商品"或"如何处理缺货情况"这样的通用技能,并在后续任务中复用,那么它的服务效率和用户满意度都会显著提升。然而,现有方法在这一方向上遭遇了系统性的困境。手工整理技能(如 Anthropic 的 skills 仓库)虽然质量较高,但无法扩展到智能体可能遇到的多样化任务空间;基于启发式规则的记忆管理方法(如 MemP)虽然能自动化部分流程,但缺乏对下游任务性能的反馈感知,无法适应执行器(executor)的实际需求;而近期将强化学习(RL)应用于技能管理的研究,又往往局限于短时段的任务流,难以掌握更新(update)和删除(delete)等复杂操作,因为这些操作的效益只有在更长的时间跨度上才能显现。

SkillOS 的核心思想贡献在于,它将技能整理(skill curation)重新定义为一种基于经验驱动的、面向长期效用的强化学习问题。作者提出了一个模块化的多智能体架构,将任务执行器(Agent Executor)与技能整理器(Skill Curator)解耦:前者负责使用技能解决任务并保持参数冻结,后者则通过生成结构化的文件操作(插入、更新、删除)来维护一个外部技能仓库(SkillRepo),并通过强化学习训练来优化这些整理决策。这一视角的转换具有深刻的理论意义——它不再将技能整理视为一个静态的知识工程问题,而是将其视为一个动态的、以未来任务性能为导向的决策优化问题。

在技术层面,SkillOS 带来了三项关键贡献。首先,作者设计了一种分组任务流(grouped task streams)的训练构造方法,将相关的任务组织成训练实例,使得从前序任务中提炼的技能能够通过后续相关任务的性能来评估其价值,从而将间接且延迟的反馈转化为可学习的信号。其次,他们设计了一种复合奖励函数(composite reward),不仅包含任务结果奖励,还整合了操作有效性奖励、内容质量奖励和压缩奖励,从而引导整理器生成既正确又简洁、且对执行器真正有用的技能。第三,该系统展示了卓越的跨模型和跨领域泛化能力:一个 8B 参数的 Qwen3-8B 整理器,其表现甚至超过了直接使用 Gemini-2.5-Pro 作为整理器的效果,证明了针对性的 RL 训练能够弥补甚至超越原始模型的规模优势。

实验结果表明,SkillOS 在 ALFWorld、WebShop 和数学推理基准测试上均取得了显著的性能提升。以 Qwen3-8B 作为执行器时,ALFWorld 上的平均成功率从最强基线的 55.7% 提升至 61.2%,交互步数从 21.1 步降至 18.9 步。这些数字背后,是一个更深层的事实:SkillOS 不仅提升了智能体的"智力",还提升了其"效率"——它让智能体学会的不是更多试错,而是更少但更精准的决策。进一步的分析揭示了更引人入胜的现象:随着训练进行,技能整理器从早期的"盲目扩张"(大量插入操作)逐渐过渡到"精炼打磨"(大量更新操作),而技能仓库也从零散的任务特定技能演变为包含验证、回退、系统搜索等高层元策略的丰富体系。这种"进化中的进化"现象,使 SkillOS 不仅仅是一个工程系统,更像是一个展示智能体如何从经验中涌现更高层次认知结构的理论窗口。

2. 理论框架 (Theoretical Framework)

要深入理解 SkillOS 的理论基础,我们需要追溯智能体记忆与自我进化研究的思想谱系,并理解作者如何将技能整理这一传统上由人类专家主导的活动,转化为一个可由机器自主学习的目标驱动的决策问题。

智力谱系:从静态记忆到自我进化。 让智能体具备长期记忆的能力,是自然语言处理与智能体研究领域长期追求的目标。早期的研究沿着两条路径发展:一条是将经验以最小加工的形式保存,如原始轨迹(raw trajectories)或查询-响应对,这类方法(如 Wu et al., 2025a; Zheng et al., 2024)允许直接复用历史交互作为上下文范例,但受限于上下文长度,且跨任务泛化能力有限;另一条路径则将经验抽象为更高层次的知识,如可复用的工作流(workflows)、提炼的洞察(insights)和反复出现的模式(patterns),这类策略性记忆减少了长轨迹回放的需求,提升了跨任务的泛化性和效率(Ho et al., 2025; Kim et al., 2025; Wang et al., 2025d)。近年来,"技能"(skills)作为一种新的智能体原生记忆形式和可编排的能力层脱颖而出(Alzubi et al., 2026; Wang et al., 2025c),其核心优势在于模块化(modularity)和易于定制性。Anthropic 的概念化设计——将每个技能视为一个包含指令、脚本和支持资源的文件夹(Anthropic, 2025a)——已被社区广泛采纳。SkillOS 遵循这一设计理念,并进一步将其简化为单个 Markdown 文件以适配研究场景。

核心概念:技能整理作为长期决策问题。 SkillOS 的理论创新在于将技能整理形式化为一个流式(streaming)决策过程。在测试时场景中,智能体面对的是一个随时间到达的任务序列 D={x1,x2,,xT}。在每个时间步 t,智能体必须解决当前任务 xt 后才能观察未来任务,产生执行轨迹 ξt={o1,a1,,on,an},其中 o 表示环境观察,a 表示动作。这一设定自然地捕捉了自我进化智能体的挑战:系统必须从过去的交互轨迹中提炼有用的经验,以改善未来任务的表现。作者将技能仓库 St 定义为一组可复用技能 St={st1,st2,,stNt} 的集合,每个技能 sti 采用 Markdown 格式,包含两个核心组件:YAML 前置元数据(frontmatter)指定技能名称和何时使用技能的自然语言描述,以及 Markdown 指令体描述可执行的知识、工作流、约束和可复用启发式。

模块化多智能体设计。 系统的理论架构建立在两个智能体的解耦之上:一个是冻结参数的任务执行器 πL,另一个是可通过强化学习训练的技能整理器 πS。给定任务 xt,执行器 πL 基于当前环境观察和相关技能来求解任务。具体而言,作者使用 BM25(Robertson and Zaragoza, 2009)从技能仓库 St 中检索相关技能子集 S~tSt,执行器按照 aπL(xt,ot,S~t) 采样动作。当执行器完成任务后,技能整理器 πS 观察整个轨迹 ξt、由 LLM-as-a-judge 判定的任务正确性信号 1ξt,以及检索到的相关技能子集 S~t,然后生成一系列结构化的整理操作序列 ct=(ut1,,utMt)πS(ξt,1ξt,S~t),其中每个操作 utm 属于 {insert_skill,update_skill,delete_skill}。这些操作通过函数调用的形式实现,直接操纵技能仓库 St,将其从 St 变换为 St+1,即 St+1=ApplyOps(St,ct)。更新后的仓库随后在后续任务中被执行器使用,形成任务执行与经验驱动的技能进化之间的闭环。

强化学习训练的理论基础。 训练技能整理器 πS 的核心挑战在于整理决策的反馈是间接且延迟的——整理操作的真正价值只有在后续相关任务的执行性能中才能体现。为了提供下游学习信号,作者将每个训练实例构造为一组相关任务的序列。形式化地,对于每个任务 xi,首先使用 Gemini-2.5-Pro 为每个实例标注一组技能相关属性:

Zi={zi1,zi2,,zi|Zi|}

其中每个属性 zij 捕捉任务 xi 的一个显著方面,如主题、所需技能、常见陷阱等。基于这些标注属性,任务集 D 被划分为 M 个任务组:

D={G1,G2,,GM},Gm={xm,1,xm,2,,xm,|Gm|}

同一组内的所有实例在所需技能方面表现出非平凡的依赖关系。这种分组构造使得:前序任务的轨迹整理出的技能,能够通过后续相关任务的性能来评估其对执行器的实际帮助,从而将延迟反馈转化为可学习的目标。

复合奖励函数。 训练采用 Grouped Reward Policy Optimization(GRPO; Shao et al., 2024)进行优化。对于任务组 G=(x1,,x|G|),整理器在任务执行过程中产生整理决策序列 c=(c1,,c|G|)。每个训练步骤的奖励由四个信号组合而成:

r=rtask+λfrfc+λurcnt+λcrcomp

其中,任务结果奖励 rtask 衡量从第二个任务开始的平均成功率:

rtask=1|G|1i=2|G|1(ξi)

这提供了基于执行器性能的下游信号,反映了进化中的 SkillRepo 的实际效用。函数调用奖励 rfc 衡量整理器生成的操作是否有效:

rfc=1|G|i=1|G|Valid(ci)

压缩奖励 rcomp 鼓励简洁的仓库更新,防止整理器简单复制原始轨迹:

rcomp=1|G|i=1|G|(1|Si||χi|)

其中 |Si||χi| 分别表示技能仓库和整理器输入上下文的 token 长度。内容质量奖励 rcnt 评估整理出的技能是否具有语义意义和潜在实用性:

rcnt=1|G|i=1|G|Judge(ci)

其中 Judge 由外部评估器(Qwen3-32B)提供标量评分。GRPO 的优势计算为 An=rn1Nn=1Nrn,其中 rn 是第 n 个 rollout 的复合奖励。整理器通过裁剪的替代目标进行优化:

L=En[min(ρnAn,clip(ρn,1ϵ,1+ϵ)An)]

其中 ρn=πS(cnχ)πθold(cnχ) 是重要性比率。这一优化过程通过端到端的方式,将延迟的环境反馈转化为整理器的策略改进信号。

假设与适用范围。 SkillOS 的理论框架基于几个关键假设:首先,技能仓库对任务执行器具有因果影响——检索到的技能确实能够改变执行器的行为;其次,相关任务之间存在可共享的技能依赖,这是分组训练有效性的前提;第三,任务成功/失败的信号足够清晰以形成稳定的奖励。该框架目前适用于任务属性可标注、执行轨迹可被观察的场景,对于高度非结构化或奖励极其稀疏的环境,训练稳定性可能会受到影响。

3. 技术架构 (Technical Architecture)

SkillOS 的技术实现可以被视为一个精心编排的多智能体协作系统,其设计哲学在于将"做什么"(任务执行)与"如何学习"(技能整理)这两个核心职能分离,同时通过强化学习建立起两者之间的价值连接。

系统总览与架构概览。 整个系统的工作流程如同一个操作系统的文件管理机制——这也正是 "SkillOS" 命名的灵感来源。系统由三个核心组件构成:外部技能仓库(SkillRepo)、冻结参数的任务执行器(Agent Executor),以及可训练的技能整理器(Skill Curator)。技能仓库充当智能体的"外部硬盘",以 Markdown 文件的形式存储可复用的程序性知识。任务执行器则是"应用层",负责读取并执行从仓库中检索到的技能。而技能整理器扮演着"操作系统内核"的角色,通过结构化的函数调用来管理仓库中的文件——插入新技能、更新现有技能、删除过时技能。这种解耦设计的精妙之处在于,执行器可以专注于其擅长的任务解决,而整理器则可以独立进化其管理策略,两者通过技能仓库这个共享接口进行交互。

数据流与组件交互。 当一个新的任务 xt 到达时,系统启动一个完整的数据流循环。首先,BM25 检索器从当前的技能仓库 St 中筛选出与任务描述最相关的技能子集 S~t——这里采用的是经典的关键词匹配算法,而非更复杂的稠密检索,这一设计选择是有意为之:作者希望将研究焦点集中在"如何整理技能"这一核心问题上,而不是被检索机制的复杂性所干扰。接下来,冻结参数的执行器 πL 接收任务描述 xt、当前环境观察 ot 和检索到的技能 S~t,通过链式思考(Chain-of-Thought, CoT)推理生成一系列动作 aπL(xt,ot,S~t)。执行器产生的完整轨迹 ξt、任务成功/失败的二元信号 1ξt,以及检索到的技能子集 S~t,共同构成技能整理器的输入上下文。整理器 πS 基于这些观察生成结构化的整理操作序列 ct,每个操作都是一个带有明确签名的函数调用。这些操作被顺序应用到技能仓库上,将 St 更新为 St+1,从而完成一次"经验沉淀"的闭环。

技能格式与操作空间。 SkillOS 采用 Markdown 作为技能的标准格式,这是社区广泛采纳的 SKILL.md 规范的简化版本。每个技能文件包含两个部分:YAML 前置元数据(frontmatter)和 Markdown 指令体。YAML 部分强制包含两个键——name(人类可读的技能名称)和 description(何时/为何/如何使用的一句话摘要,用于未来检索);Markdown 体则包含可执行的知识,如工作流、约束条件、可复用的启发式等。整理器的操作空间由三个函数构成:insert_skill 用于创建新技能,update_skill 用于替换现有技能的内容或名称,delete_skill 用于移除不再需要的技能。这种函数调用式的设计使得整理器的输出具有高度的结构化和可验证性——每一次操作都有明确的参数和预期效果,便于在奖励函数中进行有效性评估。

训练流程与算法实现。 训练过程的核心创新在于分组任务构造和复合奖励机制的结合。在每次训练迭代中,系统首先采样一个任务组 G=(x1,,x|G|) 并初始化一个空的技能仓库 S。随后,系统按顺序遍历组内每个任务:对于第 i 个任务,先通过 BM25 检索相关技能,再运行冻结的执行器 πL 获得轨迹 ξi,接着从整理器 πS 采样整理决策 ci,最后将决策应用到技能仓库 SApplyOps(S,ci)。当整个任务组处理完毕后,系统基于收集到的所有轨迹和整理决策计算复合奖励 r,然后使用 GRPO 更新整理器策略。这一训练循环的精妙之处在于,它模拟了测试时的流式场景:整理器在每个任务后都有机会更新仓库,而这些更新会在后续相关任务中受到评估。因此,整理器学习到的不是孤立的整理操作,而是面向长期效用的整理策略。

实现细节与超参数配置。 在工程实现上,作者选择了 Qwen3-8B 作为整理器的基础模型,训练时也以 Qwen3-8B 作为冻结执行器。训练采用 GRPO 算法,学习率设为 1×106,批次大小 32,组大小 8,温度参数 1.0,KL 损失系数 0.001。最大提示长度限制在 16,384 tokens,最大响应长度为 4,096 tokens。奖励函数的权重配置为 λf=1.0(函数调用)、λu=0.1(内容质量)、λc=0.05(压缩),这些权重反映了作者对各项奖励信号的优先级设定——任务执行的正确性固然重要,但整理操作的有效性和技能的简洁性同样不可忽视。训练在 16 张 H100 GPU 上进行,使用 verl 框架(Sheng et al., 2024),ALFWorld 训练约需 3 天,推理任务约 2.5 天,WebShop 约 5 天。这种训练开销虽然不菲,但考虑到整理器一旦训练完成即可跨执行器复用,其性价比是相当可观的。

分组构造的算法机制。 任务分组的构造是一个精心设计的两阶段流程。第一阶段使用 Gemini-2.5-Pro 为每个任务实例标注一组潜在属性 Zi=(Ti,Si,Ci,Ri,Pi),分别对应主题、所需技能、数学概念/定理、启发式策略和常见陷阱。这些属性作为任务相关性的代理信号。第二阶段基于属性相似度构建任务组。为了处理开放词汇表中的短语匹配问题,作者设计了一种软 Jaccard 相似度 SJτ(A,B),结合精确匹配和基于句子嵌入(all-MiniLM-L6-v2)的模糊匹配。每个候选任务对还必须通过"依赖门"(dependency gate)的六项检验:共享基础概念、共享推理策略、非近似重复、非过于不相关、引入新内容、以及正向课程难度递进。这种精细的分组过滤确保了训练实例中既有技能复用的空间,又有整理新技能的动力。

4. 实验评估 (Experimental Evaluation)

SkillOS 的实验设计体现了一种严谨的科学发现精神:作者不仅展示了系统的整体性能优势,还通过多维度对比、消融研究和定性分析,深入探究了"为什么 SkillOS 有效"以及"它是如何发挥作用的"。

实验设计与评估维度。 实验覆盖了两大任务类别——多轮交互式智能体任务(ALFWorld 和 WebShop)和单轮推理任务(AIME24、AIME25 和 GPQA-Diamond),这种跨任务类型的设计本身就具有重要价值,因为它测试了技能整理能力的普适性。作者从两个互补维度评估所有方法:有效性(effectiveness)和效率(efficiency)。对于智能体任务,有效性通过成功率(Success Rate, SR)衡量——ALFWorld 上为达到目标状态的轮次占比,WebShop 上为购买到完全匹配商品的轮次占比;效率通过每个任务所需的交互步数(Steps)衡量。对于推理任务,有效性通过答案准确率(Accuracy, Acc.)衡量。这种双维度评估框架避免了只关注性能而忽视成本的片面视角——一个真正实用的系统应当同时更快且更好地完成任务。

数据集与基线方法。 ALFWorld 是一个基于文本的交互式环境,覆盖六种家庭任务类型(如拾取放置、检查光照、清洁、加热、冷却等),包含 3,553 个训练任务和 140 个测试任务。WebShop 模拟真实电商网站,包含 118 万真实商品和 12,087 条自然语言购物指令,其中 500 条用于测试。推理任务的数据来自 DeepMath-103K,从中采样约 33,000 个问题构建训练数据,并在 AIME24(30 题)、AIME25(30 题)和 GPQA-Diamond(198 题)上测试。基线方法涵盖了三个类别:无记忆的独立求解(No Memory);基于记忆的现有方法——ReasoningBank(提炼可复用洞察)和 MemP(基于启发式规则的记忆管理);以及内部变体——SkillOS-base(未经 RL 训练的开源模型整理器)和 SkillOS-gemini(使用 Gemini-2.5-Pro 直接进行整理)。这种基线设置覆盖了"有无记忆""固定策略 vs. 学习策略""开源模型 vs. 前沿模型"等关键对比维度。

主要结果与系统比较。 表 1 和表 2 呈现了实验的核心发现。在 ALFWorld 基准上,以 Qwen3-8B 为执行器时,SkillOS 的平均成功率达到 61.2%,相比最强基线 ReasoningBank(55.7%)提升了 5.5 个百分点,相比无记忆基线提升了 13.3 个百分点,同时将交互步数从 21.1 步降至 18.9 步。这一模式在不同执行器上保持一致:当执行器升级为 Qwen3-32B 时,SkillOS 将成功率从 61.4%(ReasoningBank)提升至 68.6%,步数从 18.7 降至 17.3;当使用前沿模型 Gemini-2.5-Pro 作为执行器时,SkillOS 将成功率从 71.4%(ReasoningBank)提升至 80.2%,步数从 16.0 降至 14.8。WebShop 基准上,以 Qwen3-8B 执行器为例,SkillOS 的得分从基线的 33.3 提升至 40.6,成功率从 9.8% 提升至 16.5%,同时步数从 20.3 降至 19.4。推理任务上,Qwen3-8B 执行器的平均准确率从 69.6% 提升至 73.8%。

方法 执行器 ALFWorld SR↑ WebShop SR↑ AIME24 Acc.↑ AIME25 Acc.↑ GPQA Acc.↑
No Memory 47.9 9.8 76.0 71.1 61.8
ReasoningBank Qwen3-8B 55.7 11.4 75.4 73.2 60.3
MemP Qwen3-8B 49.7 12.0 75.6 71.1 60.6
SkillOS-base Qwen3-8B 53.1 13.6 75.6 71.9 59.3
SkillOS-gemini Gemini-2.5-Pro 50.7 13.2 73.3 71.3 57.6
SkillOS Qwen3-8B 61.2 16.5 80.0 76.7 64.6

表:SkillOS 与基线方法在多个基准上的核心性能对比(以 Qwen3-8B 为执行器)。加粗表示最优结果。

一个尤为引人注目的发现是,RL 训练的 8B 整理器(SkillOS)在多数设置下超越了直接使用 Gemini-2.5-Pro 作为整理器(SkillOS-gemini)的表现。例如,在 ALFWorld 上,Qwen3-8B 执行器搭配 Qwen3-8B 整理器的组合(61.2% SR)优于 Qwen3-8B 执行器搭配 Gemini-2.5-Pro 整理器的组合(50.7% SR)。这表明,更强的原始推理能力并不自动转化为更强的技能整理能力——未经针对性训练的顶尖模型可能生成与执行器能力或偏好不匹配的技能,而 RL 训练能够使整理器"学会"如何为特定执行器生成最有用的技能。

跨领域泛化分析。 图 3 展示了技能整理器的跨任务泛化能力。在三个不同执行器(Qwen3-8B、Qwen3-32B、Gemini-2.5-Pro)上的实验表明,训练于某一类任务的整理器迁移到其他任务类型时仍能带来性能提升。一个有趣的模式是:从推理任务训练的整理器迁移到智能体任务时表现尤为出色,这可能是因为推理任务中提炼的技能更具抽象性和通用性(如分解、验证、适应性规划),而智能体任务中的技能往往更依赖于特定环境的细节。相反,从 WebShop 或 ALFWorld 训练的技能迁移到推理任务时效果较弱,因为环境特定的知识难以跨领域复用。这一发现提示我们,技能的抽象层次与其可迁移性之间存在系统性的权衡。

效率优势的深层含义。 SkillOS 在减少交互步数方面的持续表现值得特别关注。在 ALFWorld 上,无论使用哪种执行器,SkillOS 都实现了最少的平均步数——这意味着整理出的技能不仅帮助智能体更频繁地成功,还帮助它更快地成功。这揭示了 SkillOS 的一个深层机制:它不是在让智能体做更多的探索性试错,而是在让智能体学会"走捷径"——通过复用已验证的策略,直接跳过高概率有效的行动路径。这种效率优势在部署场景中具有重要的成本意义:更少的交互步数意味着更低的 API 调用开销和更快的响应时间。

消融研究。 表 3 展示了奖励设计和任务分组的关键性。移除内容质量奖励 rcnt 使成功率从 61.2% 降至 58.6%,说明中间监督对引导技能内容的语义质量至关重要;移除压缩奖励 rcomp 导致较小但一致的下降(60.0%),表明简洁的仓库确实更利于执行器使用;而移除分组构造(使用随机任务序列)则导致最严重的性能下降(57.3%),这强调了基于相关任务流的训练对于学习有效整理策略的不可替代性。这些消融结果共同印证了论文核心设计的必要性:分组任务提供学习信号的结构,复合奖励提供学习信号的内容,两者缺一不可。

方法 ALFWorld 平均 SR↑ 步数↓
SkillOS (完整) 61.2 18.9
w/o rcnt 58.6 20.1
w/o rcomp 60.0 19.3
w/o 分组构造 57.3 20.6

表:ALFWorld 上的消融实验结果(Qwen3-8B 执行器 + Qwen3-8B 整理器)。

5. 案例研究 (Case Studies)

定性分析揭示了 SkillOS 最令人着迷的一面:它不仅是一个性能提升工具,更是一个展示智能体如何从经验中涌现出结构化知识和元认知能力的窗口。

技能整理器行为的训练时演化。 图 4 追踪了整理器在训练过程中三种操作(insert、update、delete)的比例变化。训练初期,插入操作占据了压倒性主导地位——整理器专注于从经验中"盲目地"填充技能仓库,就像一个急于收集藏书的新建图书馆。随着训练推进,更新操作的比例稳步上升,而插入操作相应下降。这表明整理器逐渐从单纯的技能积累过渡到对现有技能的精炼和打磨——它开始意识到,改进一个已有技能可能比添加第十个类似技能更有价值。与此同时,删除操作虽然始终保持较小的比例,但呈现微弱的增长趋势,这验证了压缩奖励在维持仓库简洁性方面的效果。这种行为演化暗示了一个深层的学习动态:整理器正在内化一种"质量优于数量"的策展哲学。

技能内容的层次化涌现。 图 5 展示了技能仓库在 RL 训练中的两种涌现现象。首先是 Markdown 结构层次的丰富化:早期技能往往只包含通用性的指导、提示和建议,这些内容虽然无害但实操价值有限;随着训练深入,新增的结构逐渐转向更具行动导向的组件——如失败处理逻辑、条件分支(指定何时偏离默认工作流)、以及优化策略。这说明 RL 逐渐将整理器从"表面丰富化"引导到"执行导向的精炼"。其次是元策略技能的出现:早期的技能仓库被狭隘的、任务特定的技能所主导,而后期仓库则包含更多样化的元策略技能,覆盖状态验证、回退规划、系统性搜索和策略调整。这表明整理器不仅在学习"记住什么",还在学习"如何组织记忆"——技能仓库正从孤立的任务局部程序向可组合的跨任务控制知识演进。

技能使用归因分析。 图 6 的对比分析揭示了 SkillOS 在技能使用效率上的优势。与基线相比,SkillOS 在所有评估样例上都调用了技能,且成功率更高,这直接证明了进化后的技能对任务解决的因果贡献。更重要的是,SkillOS 实际使用的技能占技能集合的比例更大,但每个样例平均使用的技能数量更少——这精准地说明 RL 训练改善的不是"更大量地堆砌技能上下文",而是"更精确地命中真正相关的技能"。这种从"广度覆盖"到"精准打击"的转变,是技能整理质量提升的最直接证据。

典型技能内容对比。 图 17 和图 18 提供了定性的技能内容对比。在智能体任务中,SkillOS 整理出的技能展示了一种元策略思维:不是记忆"如何在某个特定房间找到某本书"的具体轨迹,而是抽象出"穷尽搜索 确认不可用 识别替代物 使用替代物继续"的通用失败恢复工作流,并且明确引用现有技能,展示组合能力。在推理任务中,一个关于内径-外径-半周长关系的技能编码了多条解题路径,每条路径都配有公式、适用场景和前置条件。相比之下,未经训练的基线(SkillOS-base)在数学推理中只输出一个泛泛的"划分为不相交集合"的高层配方,缺乏具体公式、约束或示例。这些对比鲜明地展示了 RL 训练如何不仅提升技能的正确性,更提升其特异性、可用性和结构性。

任务解决过程的对比示例。 图 19 以"查看台灯下的 CD"任务为例,直观展示了技能如何改善智能体行为。无记忆基线无法理解"物体-位置"关系,在无关容器中低效搜索,最终耗尽步数预算。而 SkillOS 检索到一个鼓励智能体在指令提到"灯下"时检查光源周围物体的技能,引导智能体先到桌边区域找到 CD,再移动到台灯处检查正确位置,成功完成任务。这个案例的启示在于:有价值的技能不是对具体动作序列的机械记忆,而是对语义关系的抽象理解——"灯下"暗示了"光源附近"的空间关系,这种理解可以迁移到无数类似场景。

6. 综合价值与局限 (Synthesis)

理论意义。 SkillOS 在概念层面上做出了一项重要贡献:它将技能整理从人类主导的、一次性的知识工程活动,转化为智能体自身可以持续优化的目标驱动学习问题。这一转变的理论价值在于,它提出了"元学习"(learning to learn)的一种具体实现路径——智能体不仅在学习如何解决任务,还在学习如何管理自己的知识资产。论文中观察到的技能仓库的层次化涌现(从任务特定技能到元策略技能的演化)尤为引人深思,因为它暗示了复杂认知结构可能通过简单的优化压力(复合奖励)在足够长的训练时间中自发涌现。这为研究智能体如何发展出越来越抽象和通用的知识表示提供了一个可操作的实验平台。

实践影响。 从应用角度看,SkillOS 展示了一种模块化、可扩展的自我进化架构。由于整理器与执行器解耦,训练好的整理器可以跨不同执行器复用——论文已验证它可与 Qwen3-8B、Qwen3-32B 和 Gemini-2.5-Pro 等多种模型兼容。这意味着组织机构可以训练一个专门的技能整理模型,然后将其部署到不同的下游应用中,而无需为每个应用重新训练整个系统。此外,RL 训练使小模型整理器超越了前沿大模型的零样本整理能力,这为资源受限场景提供了重要的部署可行性——一个 8B 参数的整理器就能提供接近甚至超过顶尖闭源模型的整理质量。

核心优势。 论文最 convincing 的方面在于其多维度的实验验证:不仅在多个基准上展示了定量提升,还通过消融研究验证了每个核心设计的必要性,通过定性分析揭示了技能内容和结构的演化过程,通过泛化实验证明了跨模型和跨领域的可迁移性。特别值得称赞的是作者对效率维度的关注——在追求更高成功率的同时还能减少交互步数,这是许多只关注性能的研究所忽略的。另一个亮点是复合奖励函数的设计,它巧妙地将延迟的下游反馈与即时的中间监督结合起来,解决了强化学习中经典的信用分配难题。

诚实局限。 作者在附录中坦诚地讨论了三个主要局限。首先是检索机制的简化——当前使用 BM25 关键词匹配可能无法捕捉深层语义关联,更先进的稠密检索或混合检索可能进一步提升效果,但作者有意将这一问题留给未来研究以聚焦核心主题。其次是技能表示的简化——每个技能被压缩为单个 Markdown 文件,无法支持可执行脚本和层次化的子技能引用,这限制了技能表达能力的上限。第三是执行器的冻结假设——整理器只能通过调整技能内容来影响执行器行为,无法直接优化执行器自身的策略,任何整理器与执行器之间的不匹配都必须由整理器单方面吸收。联合优化可能带来更好的对齐效果,但代价是失去模块性和大幅增加训练成本。此外,训练本身需要较长的计算时间(数天到一周不等),这在某些快速迭代场景中可能构成障碍。

更广泛的影响。 SkillOS 所处的研究脉络——让智能体具备长期学习和自我改进能力——是当前人工智能领域最具雄心的方向之一。这项工作不仅提供了一种有效的技术方案,更提供了一种思考框架:将智能体的知识管理视为一个可以通过强化学习优化的控制问题。它向社区传递了一个强有力的信号:自我进化的智能体不仅是可行的,而且可以通过精心设计的训练配方和奖励机制来引导其发展方向。

7. 延伸阅读与思考 (Further Reading)

重要前期工作。 SkillOS 建立在多个并行发展的研究脉络之上。在记忆机制方面,Wu et al. (2025b) 对 LLM 时代的记忆机制进行了全面综述,为理解从人类记忆到 AI 记忆的范式转换提供了基础框架。在程序性记忆方面,Fang et al. (2025b) 提出的 MemP 是 SkillOS 的直接对比基线之一,它展示了高级记忆管理策略(整合、遗忘、重新索引)的潜力,但这些策略仍依赖手工设计的启发式规则。Ouyang et al. (2026) 的 ReasoningBank 则从可复用推理洞察的角度切入,代表了一类"提炼再检索"的记忆范式。在技能作为记忆形式方面,Wang et al. (2025c) 的程序化技能和 Anthropic (2025a, 2025b) 的 SKILL.md 规范奠定了社区对技能的标准理解,而 SkillOS 正是在此基础上将技能整理推进到了自动化学习的新阶段。

相关替代方法。 与 SkillOS 同期或近期的工作从不同角度探索了类似问题。SkillRL(Xia et al., 2026)和 D2Skill(Tu et al., 2026)侧重于教授较小模型如何使用从强大 LLM 中整理出的技能,而非学习如何整理技能本身。ARISE(Li et al., 2026b)训练一个同时充当技能检索器和执行器的共享策略,使用启发式规则进行技能管理。Wang et al. (2025a) 和 Ye et al. (2026) 虽然也开始训练智能体进行记忆或技能整理,但其监督主要局限于短任务流内的局部适应,倾向于简单操作(如插入),而对更新和删除等复杂操作的学习信号不足。相比之下,SkillOS 的核心差异化在于其长时段、执行器锚定的训练配方,以及将延迟反馈转化为可学习信号的系统性方法。

未来方向。 这项工作开辟了若干值得深入探索的研究方向。最自然的一步是将静态 BM25 检索升级为 agentic 搜索——让整理器(或专门的检索智能体)主动发出多轮查询、基于中间证据重新表述查询、并迭代决定呈现哪些技能片段给执行器。这将把记忆访问从预处理步骤提升为一等决策,使 SkillOS 能够扩展到比当前考虑的大得多的记忆存储。另一个方向是层次化和组合化技能:当前技能是扁平的 Markdown 条目,但真实的智能体能力是层次化的——高层过程调用低层子技能。扩展 SkillRepo 以支持层次分解,将允许智能体构建越来越具表现力的程序库。多智能体和共享记忆也是一个充满潜力的方向:当多个智能体并行运作时,如何仲裁来自不同智能体的冲突整理决策、如何归因共享技能对某一成功但另一失败的贡献、以及如何在保持专业化的同时实现跨智能体迁移,这些都是尚未解决的开放问题。

开放问题。 这个领域最深刻的未解挑战包括:如何使技能整理在奖励极其稀疏的环境中保持稳定性?如何让整理器学会识别和纠正自身之前的错误(即"元纠错")?如何在技能数量增长到数千甚至数万时维持检索和整理的效率?以及最根本的:是否存在一个通用的技能整理策略,能够跨任务类型、跨环境、跨时间尺度稳定工作?SkillOS 的洞察——通过分组构造和复合奖励将延迟反馈转化为可学习信号——为解决这些问题提供了起点,但距离通用自我进化智能体的愿景仍有相当距离。

个人反思。 这篇工作最令人深思的地方在于它揭示了"学习如何学习"的一种具体而可操作的实现方式。当我们看到一个 8B 参数的小模型通过 RL 训练在技能整理上超越未经训练的前沿大模型时,它提醒我们:智能的本质可能不在于原始参数的庞大,而在于优化目标的精巧设计。整理器从"盲目插入"到"精炼更新"的行为演化,以及技能仓库从任务特定技能到元策略技能的层次化涌现,都让人联想到人类专家的成长路径——初学者急于积累知识,专家则专注于提炼和组织知识。如果这种类比成立,那么 SkillOS 可能不仅仅是一个工程系统,而是向我们展示了机器智能发展出专家级元认知能力的一种可能路径。我最想进一步探索的问题是:当技能仓库的规模增长到当前实验的十倍甚至百倍时,当前的分组构造和奖励设计是否仍然有效?以及,是否可以让整理器同时学习"什么技能值得保留"和"如何检索技能"这两个相互关联的问题?

Topics:

Powered by Forestry.md