Learning, Fast and Slow: Towards LLMs That Adapt Continually

基本信息

标题: Learning, Fast and Slow: Towards LLMs That Adapt Continually
第一作者: Rishabh Tiwari
研究团队: uc_berkeley (Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer)
会议/期刊: arXiv:2605.12484v1 (2026)
代码: Available (Video | Blog | Code mentioned in header)
PDF 文件: [Learning, Fast and Slow: Towards LLMs That Adapt Continually](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260512_learning_fast_slow_llms_adapt_continually.pdf)

研究摘要

当前大语言模型（Large Language Models, LLMs）的后训练（post-training）领域面临一个深刻的结构性矛盾：模型要想在特定任务上取得更好的表现，就必须通过监督微调（SFT）或强化学习（RL）来更新自身的参数权重；然而，每一次参数更新都会让模型偏离其原始的基座行为，进而引发灾难性遗忘（catastrophic forgetting）、输出熵值降低、分布外泛化能力下降，以及所谓的"可塑性损失"（plasticity loss）——即模型适应未来新任务的能力被侵蚀。这种困境的根源在于，我们将所有形式的适应性学习——无论是可复用的推理技能、任务特定的启发式策略，还是来自最近采样的临时性经验——都强制写入同一套持久化的参数权重中。这就像一个学生把所有科目的笔记都强行塞进同一个大脑皮层区域，每学一门新课，旧课的记忆就被覆盖一分。

与此同时，LLM 系统还拥有另一种强大的适应机制：提示词（prompts）、指令（instructions）和上下文信息（contextual information）。与模型参数不同，这些文本组件可以被廉价、频繁、按任务地修改。提示词优化方法已经表明，在不触碰模型参数的前提下，仅通过改进模型所操作的文本上下文，就能获得显著的行为改善。然而，纯粹的上下文学习（in-context learning）通常无法达到参数更新所能带来的性能上限。这就像用便利贴记笔记——换起来很快，但承载的信息量和深度终究有限。

Tiwari 等人正是在这一矛盾中找到了突破口。他们提出的核心洞见是：学习不必局限于"仅参数内"或"仅上下文内"的二元对立。人类认知科学中长期存在"快系统"与"慢系统"的区分（System 1 vs System 2），前者负责快速、直觉性的反应，后者负责缓慢、 deliberative 的推理。受此启发，作者们将 LLM 的适应过程重新构想为两个互补组件的协同演化：慢参数组件（slow parametric component），即模型权重——更新代价高昂、跨任务持久化、编码长期行为；快文本组件（fast textual component），即提示词、指令和任务上下文——可以廉价频繁地更换，立即影响行为，在不永久修改模型的前提下捕获任务级适应。

这篇论文提出的 Fast-Slow Training（FST，快-慢训练）框架，本质上是对 LLM 后训练范式的一次概念重构。它不是在参数优化完成后再去调提示词，也不是让提示词优化和参数优化彼此孤立地运行；而是让快文本权重和慢参数权重在同一个训练过程中共同演化。快文本权重迅速从 rollout 中汲取经验教训，引导模型走向更好的推理行为；而慢参数权重则在这个不断演化的上下文中接受更新。这种劳动分工带来了五个层面的经验优势：首先，FST 的数据效率显著提升，在代码输出预测（CodeIO）、数学推理（Polaris）和多跳事实验证（HoVer-hard）三个任务族上，分别用 3.0×、1.4× 和 3.0× 更少的优化步骤就达到了纯 RL 的峰值性能。其次，FST 的性能渐近线（asymptote）始终高于纯 RL，这意味着它不仅学得更快，最终能到达的高度也更高。第三，FST 的慢权重位移显著更小——在匹配奖励水平下，模型与基座策略的 KL 散度降低多达 70%。第四，由于参数漂移更小，FST 训练出的模型保留了更强的可塑性，在从一个任务迁移到另一个任务时表现出更优的持续学习能力。第五，在真正的持续学习场景中——即任务域在训练过程中动态切换时——FST 能够持续吸收每一个新任务，而纯参数 RL 则完全停滞。

这项工作的重要性远超其具体的技术实现。它提出了一个关于 LLM 适应性学习的根本性命题：有效的后训练不应当要求模型参数吸收所有形式的适应。快文本权重可以捕获任务特定的、快速演化的改进；慢权重则可以专注于巩固持久性的行为模式。这种劳动分工为构建更高效、更少破坏性、更适于持续学习的后训练方法开辟了一条道路。

理论框架

快权重与慢权重的区分并非这篇论文的首创，而是有着深厚的思想谱系。在神经科学中，互补学习系统理论（Complementary Learning Systems theory, McClelland et al., 1995; Kumaran et al., 2016）认为大脑的海马体（hippocampus）负责快速、临时性的模式存储，而新皮层（neocortex）则负责缓慢、持久性的知识整合。在神经网络领域，Hinton 和 Plaut 在 1987 年就提出了用快权重来"去模糊"旧记忆，而 Schmidhuber 在 1992 年则系统性地研究了快权重记忆的控制机制。Ba 等人在 2016 年将快权重用于注意力机制，让网络能够迅速适应最近的输入模式。

这篇论文的独特贡献在于，它将这一经典框架首次系统性地应用于 LLM 的后训练阶段，并以文本提示词作为快权重的具体载体。这是一个非平凡的理论选择：在传统的快-慢架构中，快权重通常是模型内部的辅助参数（如外积矩阵或低秩适配器），而这里快权重被显式地放置在离散文本空间 $Σ^{*}$ 中，由自然语言构成。这一选择利用了 LLM 的一个根本特性：模型对自然语言指令高度敏感，提示词的微小变化可以导致行为的显著改变。

论文将慢权重（slow weights）建模为模型参数 $θ$ ，快权重（fast weights）建模为从离散文本空间 $Σ^{*}$ 中抽取的文本支架 $ϕ$ 。给定查询 $x$ ，系统通过以下方式产生响应：

y \sim π_{θ} (\cdot ∣ x, ϕ)

其中 $π_{θ} (y ∣ x, ϕ)$ 表示在参数 $θ$ 下、以文本上下文 $ϕ$ 和查询 $x$ 为条件所诱导的策略。对于任务分布 $D$ 和奖励函数 $r$ ，自然的联合优化目标是：

max_{θ, ϕ} J (θ, ϕ) = E_{x \sim D, y \sim π_{θ} (\cdot ∣ x, ϕ)} [r (x, y)]

这个联合目标看似简单，却蕴含着深刻的理论含义。它表明最优的 LLM 适应不是在固定的 $ϕ$ 下优化 $θ$ ，也不是在固定的 $θ$ 下优化 $ϕ$ ，而是同时在两个变量上进行优化。这种联合优化的复杂性在于， $ϕ$ 所在的空间是离散的、不可微的文本空间，而 $θ$ 所在的空间是连续的、可微的参数空间。论文通过为两个组件选择各自合适的优化器来解决这一挑战：慢权重使用基于可验证奖励的强化学习（RL with Verifiable Rewards, RLVR），快权重使用反射式进化提示词优化（GEPA）。

对于慢权重 $θ$ 的更新，论文遵循 ScaleRL 配方，采用 RLVR 方法。奖励 $r (x, y) \in [0, 1]$ 由自动验证器给出（例如数学问题的规则判定、代码执行的正确性检查）。对于每个查询 $x$ ，当前策略在当前 $(θ, ϕ)$ 下生成 $G$ 个 rollouts ${y_{i}}_{i = 1}^{G}$ ，从中计算组相对优势（group-relative advantages）：

A_{i} = \frac{r (x, y_{i}) - {\bar{r}}_{g}}{σ_{g} + ε}, {\bar{r}}_{g} = \frac{1}{G} \sum_{j = 1}^{G} r (x, y_{j}), σ_{g}^{2} = \frac{1}{G} \sum_{j = 1}^{G} (r (x, y_{j}) - {\bar{r}}_{g})^{2}

这里的组相对优势将原始奖励转化为相对于同一组 rollout 均值的归一化信号。这种归一化的重要性在于，它使得策略梯度不受奖励绝对尺度的影响，而只关注同一组内不同响应的相对优劣。策略更新使用截断重要性采样的 REINFORCE 目标函数 CISPO：

L_{cispo} (θ) = - E [sg (min (ρ_{t}, τ)) \cdot A \cdot \nabla_{θ} \log π_{θ} (y_{t} ∣ x, ϕ, y_{< t})]

其中 $ρ_{t} = π_{θ} (y_{t} ∣ x, ϕ, y_{< t}) / π_{θ_{old}} (y_{t} ∣ x, ϕ, y_{< t})$ 是当前策略与行为策略之间的逐 token 重要性比率， $τ$ 是截断阈值， $sg (\cdot)$ 是停止梯度算子。这个损失函数的关键设计在于截断机制 $min (ρ_{t}, τ)$ ：它防止策略更新过大，从而维持了训练的稳定性。在传统的 RLVR 训练中， $ϕ$ 被固定为一个通用的系统提示词，只有 $θ$ 被更新。

快权重 $ϕ$ 的优化使用 GEPA（Generative Evolution with Prompt Augmentation），这是一个在文本空间中的反射式进化过程。对于固定策略 $π_{θ}$ ，提示词在实例 $x$ 上的适应度（fitness）定义为：

s (ϕ; x) = E_{y \sim π_{θ} (\cdot ∣ x, ϕ)} [r (x, y)]

GEPA 的核心机制是一个由冻结的反射语言模型（reflection LM）驱动的进化循环。它不是简单地搜索单个最优提示词，而是维护一个提示词种群（population），并通过自然语言反思来生成文本突变（mutations）。一个典型的 GEPA 世代包含四个步骤：首先，从种群的每实例 Pareto 前沿（per-instance Pareto frontier）中选择一个父提示词 $ϕ_{p}$ ；其次，在 $ϕ_{p}$ 下采样一批 rollouts；第三，让反射 LM 诊断失败模式并提出文本编辑，从而生成子提示词 $ϕ_{c}$ ；第四，在锚点集（anchor set）上评估 $ϕ_{c}$ 的适应度，将其加入种群，并剪除被支配的候选者。

GEPA 的一个重要设计选择是保留 Pareto 前沿而非返回单个最佳提示词。这是因为不同的提示词在任务分布 $D$ 的不同子集上表现最优——一个提示词可能在代数问题上最强，另一个在几何问题上最强。这种多样性正是 FST 所需要的：在 RL 阶段从 Pareto 前沿中采样多个提示词，可以让策略梯度同时接触到多种互补的调节行为，从而使组相对优势的计算 richer、更 informative。

FST 的理论框架依赖于几个关键假设。首先，它假设文本提示词确实能够作为有效的快权重——即提示词的变化能够产生与参数变化相媲美的行为调节效果。这一假设在实证上得到了大量提示词优化研究的支持，但并非对所有模型和所有任务都同等成立（论文中的 Polaris 任务就是一个反例，由于基座模型的指令跟随能力较弱，提示词通道的效果被削弱）。其次，FST 假设慢权重和快权重之间存在足够的信息互补性：如果快权重能够捕获的任务信号已经被慢权重完全编码，那么快权重通道的增益就会很小。第三，框架假设反射 LM 足够强大，能够从 rollouts 中提取有意义的失败模式诊断并提出有效的文本修改。这些假设共同定义了 FST 的适用范围：它最适用于那些基座模型具备良好指令跟随能力、任务具有可分解的失败模式、且提示词设计空间足够丰富的场景。

技术架构

FST 的技术架构可以被理解为一个双循环协同演化系统。外层是慢循环（slow loop），以周期（cycle）为单位运行；内层是快循环（fast loop），在每个周期内部以 RL 步骤为单位运行。系统维护一个包含 $K$ 个文本提示词的种群 $Φ = {ϕ^{(1)}, \dots, ϕ^{(K)}}$ ，并优化以下联合目标：

max_{θ, Φ} J (θ, Φ) = E_{x \sim D, ϕ \sim U (Φ), y \sim π_{θ} (\cdot ∣ x, ϕ)} [r (x, y)]

其中 $U (Φ)$ 表示在提示词种群上的均匀分布。这里的 $K$ 是一个关键的超参数——它决定了快权重的多样性程度。论文中探索了 $K \in {4, 8}$ 的配置，发现更大的种群通常带来更好的性能，但收益会递减。

每个训练周期 $c$ 开始时，系统首先预取接下来的 $T$ 个 RL 批次，将其并集记为前视批次（lookahead batch） $L_{c}$ 。然后，系统运行一个 GEPA 优化阶段：以当前策略 $π_{θ_{c}}$ 为 rollout 模型，以冻结的反射 LM $π_{ref}$ 为提议者，以 $L_{c}$ （或其固定大小的子集）为锚点集，以上一周期留下的种群 $Φ_{c}$ 为种子，运行 GEPA 进化。GEPA 返回其 Pareto 前沿中 top- $K$ 的候选者，形成新的快权重种群 $Φ_{c + 1}$ 。

接下来的 $T$ 个 RL 步骤中， $Φ_{c + 1}$ 被固定， $θ$ 在 $L_{c}$ 的小批量数据上被更新。对于每个问题 $p$ ，系统组建一个大小为 $G$ 的 rollout 组：每个提示词 $ϕ^{(k)} \in Φ_{c + 1}$ 恰好被采样 $G / K$ 次。也就是说，组内有 $K$ 个"子组"，每个子组使用相同的提示词。所有 $G$ 个 rollouts 被当作同一个组来处理，奖励按照公式 (3) 进行按问题的归一化，将提示词变化和采样变化混合在同一个优势计算中。然后应用 CISPO 损失函数 (4) 来更新 $θ$ 。经过 $T$ 次更新后，整个流程以更新后的策略重复，开始新的 GEPA 阶段。

这种交替结构的设计直觉非常清晰：GEPA 阶段负责"重新校准"快权重，使其适应当前策略的最新状态；RL 阶段则利用这些快权重来训练慢权重。周期长度 $T$ 是一个重要的工程权衡——如果 $T$ 太大，快权重就会变得"陈旧"，因为策略 $θ$ 已经显著移动；如果 $T$ 太小，GEPA 的频繁运行会增加计算开销。论文通过消融实验发现 $T = 6$ 是一个较为理想的平衡点。

当系统收到一个查询 $x$ 时，它首先不会直接送入模型。相反，系统从当前的快权重种群 $Φ$ 中均匀随机地抽取一个提示词 $ϕ^{(k)}$ 。这个提示词和查询 $x$ 被拼接在一起，形成一个增强后的输入 $(x, ϕ^{(k)})$ 。然后，策略 $π_{θ}$ 在这个增强输入的条件下生成响应 $y$ 。生成完成后，自动验证器计算奖励 $r (x, y)$ 。这个奖励信号随后被用于两个目的：在 RL 阶段，它参与组相对优势的计算，驱动慢权重 $θ$ 的梯度更新；在 GEPA 阶段，它与 rollout 的完整文本（包括思维链、工具调用、错误信息）一起被送入反射 LM，用于诊断失败模式并生成新的提示词突变。

FST 的技术架构中有两个特别值得关注的创新点。第一个是种群级快权重的使用。与只维护单个最佳提示词不同，FST 维护一个 Pareto 前沿种群。这不仅保留了多样性，还使得 RL 的优势计算更加丰富：当 $K$ 个提示词在同一问题上产生不同质量的 rollouts 时，这些差异会被自然地纳入组相对优势中，从而为策略梯度提供关于"哪种提示风格更有效"的隐式信号。论文的消融实验表明，使用"问题基线"（problem baseline，即所有 rollouts 共享一个组统计量）相比"提示词基线"（prompt baseline，每个提示词单独归一化）能够带来约 1.4 个百分点的性能提升，因为这使得策略梯度能够跨提示词进行比较。

第二个创新点是 rollout 重用（rollout reuse）机制。由于 GEPA 在评估候选提示词时已经生成了大量的 $(p, ϕ^{(k)}, y, r)$ 元组，而 RL 阶段恰好需要相同的问题-提示词组合下的 rollouts，系统可以缓存 GEPA 评估期间生成的有效元组，在 RL 阶段直接复用，而不必重新采样。这一机制使得 FST 的每个 RL 步骤的墙钟时间从约 66 秒降低到约 47 秒，甚至快于纯 RL 的约 60 秒，且不会损失任何精度。这是一个优雅的工程优化，体现了对系统数据流的深刻理解。

实验评估

论文的实验设计围绕验证 FST 框架的五大优势展开，涵盖了数据效率、性能渐近线、基座模型接近度、可塑性保持和持续学习能力。这种多维度、递进式的实验策略使得论文的论证层次分明、相互支撑。作者在三个主要任务族上进行了评估：CodeIO（代码输出预测）、Math（Polaris 数学推理）和 HoVer-hard（多跳事实验证），并在 Physics（多项选择物理题）和 Star-graph（星图路径搜索）上进行了补充分析。基础模型主要使用 Qwen3-8B，数学任务使用在 Nemotron 数据上继续 SFT 的 Qwen3-8B-Base，星图任务使用 Qwen3-4B-Instruct。

实验的一个关键设计选择是"匹配步数"（matched-step）比较：不是比较训练结束时的最终性能，而是比较 FST 达到 RL 训练峰值所需的时间。这种方法公平地衡量了数据效率——如果 FST 在更少的步骤内达到相同的性能水平，那它就是更高效的学习器。

CodeIO 任务要求模型预测给定 Python 函数在特定输入下的输出，考验的是程序执行模拟能力。Polaris 是一个数学推理数据集，涵盖从代数到几何的各类竞赛级数学问题。HoVer-hard 是一个多跳事实验证任务，模型需要根据给定的文档摘要生成能够验证或反驳声明的后续搜索查询。Physics 是一个多项选择物理题数据集。这些任务涵盖了代码、数学、事实推理和科学问答四个不同领域，确保了结论的泛化性。

评估指标主要包括验证集上的 Mean@8（8 个 rollouts 的平均奖励）和 Best@8（8 个 rollouts 中的最高奖励）。对于持续学习实验，作者还使用了跨域泛化雷达图（coverage radars）来衡量模型在不同难度和领域上的综合表现。

在匹配步数实验中，FST 展现出令人印象深刻的数据效率。在 CodeIO 上，FST 仅需 RL 约三分之一（3.0×）的步骤就达到了相同的运行峰值验证奖励；在 HoVer-hard 上同样是 3.0× 的加速；在 Math（Polaris）上加速比为 1.4×。更令人瞩目的是，FST 不仅在更早的时间点达到匹配性能，其运行峰值本身也持续超越 RL。这表明快权重不仅帮助慢权重更快地学习，还帮助整个系统突破了纯参数优化的性能天花板。

跨域泛化测试进一步验证了这种效率增益的稳健性。作者将训练后检查点分别进行一轮 GEPA 提示词优化（RL→GEPA 和 FST→GEPA），并与未经训练的基座模型→GEPA 进行比较。结果显示，FST→GEPA 在大多数泛化轴上匹配或超越了 RL→GEPA，尽管 FST 的训练步骤要少得多。例如，从 Math 训练出发，FST→GEPA 将 HMMT25 Best@8 提升了 +6.7 个百分点，HMMT25 Mean@8 提升了 +2.0 个百分点，Physics Mean@8 提升了 +3.2 个百分点。这说明 FST 学到的表示具有更好的迁移性。

为了公正地比较最终性能，作者采用了饱和曲线拟合的方法。他们对每个（任务，方法）组合的验证准确率轨迹拟合一个四参数 sigmoid 曲线：

Δ R = \frac{A - R_{0}}{1 + (C_{mid} / C)^{B}}

其中 $A$ 是上渐近线， $B$ 是缩放指数， $C_{mid}$ 是性能中点， $R_{0}$ 是初始奖励。这种方法避免了"在哪个步骤停止训练"这一任意选择对结果的影响，直接读取训练趋向收敛到的水平。

拟合结果显示，在所有三个任务上，FST 的渐近线都高于 RL：CodeIO 上 47.4% 对 43.0%（+4.4pp），Math（Polaris）上 49.2% 对 46.4%（+2.9pp），HoVer-hard 上 25.0% 对 17.3%（+7.7pp）。这一结果有力地支持了论文的核心论点：将部分任务适应推入快文本权重通道，可以帮助整体系统收敛到比纯参数 RL 更高的准确率天花板。

论文引入了 KL 散度 $KL (π_{train} ∥ π_{base})$ 作为衡量慢权重位移的指标。这个指标刻画了训练后策略与基座策略之间的距离；较大的位移与降低的输出熵、更弱的分布外泛化和更低的未来任务可塑性相关联。在 CodeIO、HoVer 和 Physics 四个任务上的实验一致表明，FST 在相同奖励水平下始终位于 KL-奖励平面中 RL 的左侧——即达到相同的奖励，但漂移显著更小。在匹配奖励点，FST 的 KL 散度比 RL 低约 70%。

这一发现特别值得关注，因为 Shenfeld 等人（2025）最近表明，在线 RL 本身就已经偏向于 KL-最小化解，且位移大小与遗忘的先验知识量相关。即使相对于这个已经偏向保守的基线，FST 仍能进一步将准确率/KL 前沿向左推进。这说明快权重通道的存在确实分担了原本必须写入参数的任务信号。

论文用两阶段实验直接测试了可塑性（plasticity）。第一阶段在任务 X 上用 RL 或 FST 训练基座模型；第二阶段从第一阶段的检查点出发，在另一个不同的任务 Y 上运行标准 RL。在 Math→HoVer-hard 和 Physics→HoVer-hard 两个设置中，FST 初始化都在整个 400 步探测中优于 RL 初始化。最鲜明的对比出现在 Math→HoVer-hard 上：RL 初始化在 40 步内就将 HoVer-hard 的可学习性崩溃到接近零，并在此后保持平坦；而 FST 初始化达到了接近基座初始化参考线的性能。

持续学习实验更为激进：在一个不间断的训练过程中，每 200 步切换一次任务——先 HoVer，再 CodeIO，最后 Physics。在这个设置中，FST 在每个阶段都达到了接近峰值的表现，且在第二阶段 CodeIO 上表现出最鲜明的优势：RL 在整个 200 步预算内几乎毫无进展（仅提升 2.5pp），而 FST 在大约 80 步内就攀升到接近峰值（提升 19.6pp），是 RL 的约 8 倍。这一结果说明，通过将任务级适应路由到快文本权重通道，FST 使得慢权重在持续优化中仍然保有吸收后续任务的能力。

任务	FST 渐近线 $A$	RL 渐近线 $A$	提升 (pp)
CodeIO	47.4%	43.0%	+4.4
Math (Polaris)	49.2%	46.4%	+2.9
HoVer-hard	25.0%	17.3%	+7.7

任务	FST 匹配步数	RL 参考步数	加速比
CodeIO	~500	~1500	3.0×
Math (Polaris)	~1050	~1450	1.4×
HoVer-hard	~220	~650	3.0×

案例研究

星图搜索任务（Star-graph Search）是论文用来揭示 FST 早期训练动态的一个精心设计的人造案例。在这个任务中，模型面对一个星形图，需要找到两个标记节点之间的路径。图的构造使得第一个 hop 是唯一真正的分支决策——选择错误的分支意味着走入一条永远无法到达目标的死胡同。对于参数 $d = 25$ （25 个分支），随机猜测的成功率仅有 4%，而 Qwen3-4B-Instruct 在种子提示词下甚至无法解决任何问题（pass@16 = 0/50），因为模型的路径寻找先验被这种合成布局所误导，将概率集中在错误的分支上。这是一个典型的"RL 卡在零奖励"（RL stuck at zero）的困境。

在这个极端的零奖励起始条件下，FST 和纯 RL 表现出截然不同的早期行为。纯参数 RL 在大约前 300 步内几乎不产生任何可测量的奖励，因为梯度信号太弱，策略几乎无法学习。相比之下，FST 在大约第 50 步就达到了可测量的奖励——这一提升几乎完全来自前几个 GEPA 周期，此时慢权重 $θ$ 还来不及发生显著移动。GEPA 能够从少量 rollouts 中提取任务结构，并通过提示词立即注入系统。这些早期提示词包含了关于任务结构的关键信息（例如"首先检查源节点的邻居"），使得模型能够避开明显的陷阱。虽然 GEPA 单独只能帮助解决少数几个问题，但它提供了足够的梯度信号，让 FST 能够快速攀升奖励曲线。

这个案例生动地说明了快权重的核心价值：当慢权重由于信号太弱而难以启动学习时，快权重可以作为"启动器"（bootstrapping mechanism），先建立起初步的正确行为模式，然后再由慢权重在此基础上继续优化。

论文在附录中展示了每个任务上 GEPA 进化后的提示词，这些提示词本身就是极具启发性的案例研究。一个引人注目的模式是：GEPA 几乎从不重写种子提示词的基本结构，而是在其基础上叠加越来越多的针对性指导。更重要的是，这些新增内容几乎全部是"负面清单"式的——每一段落都针对 GEPA 在反射过程中观察到的一种具体失败模式。

以 CodeIO 的进化后提示词为例，它从简单的"你是一个 Python 函数输出预测专家"开始，最终演变成一个长达数千词的详细操作手册。其中包含了诸如"永远不要估算、'直觉'或占位任何结果"、"如果不能从给定代码和输入中计算出精确值，继续追踪和计算直到可以；永远不要插入编造的数字"、"错误但看似合理的占位符比继续推导更糟糕"等具体指令。这些指令不是凭空产生的——它们是 GEPA 的反射 LM 在分析低奖励 rollouts 后，识别出的模型反复犯的具体错误类型。

Polaris 数学任务的进化后提示词同样令人印象深刻。它包含了大量针对数学竞赛题常见陷阱的警告："对于像'k 个房子之间'这样的短语，显式将其翻译为索引差，并在小例子上验证"、"不要假设极值出现在'好的'方向（水平/垂直/切线/焦点）而不加证明"、"在三角/指数/对数中，仅在精确时使用恒等式；否则按运行时方式求值"、"不要替换为粗略角度近似"。这些指令的精细程度表明，GEPA 确实能够从 rollouts 中提取深层的任务结构信息，并将其编码为可操作的文本指导。

这些案例揭示了一个深刻的洞见：快权重的演化过程实际上是在将任务特定的隐性知识（tacit knowledge）显式化。模型通过试错发现什么有效、什么无效，而 GEPA 的反射机制则将这些经验总结为可重复使用的文本规则。这与人类专家编写"经验教训"文档的过程惊人地相似。

综合价值与局限

这篇论文最重要的理论贡献在于，它从根本上重新框定了我们对 LLM 后训练的理解。传统范式将后训练视为一个单一的参数优化问题：给定一个奖励信号，通过梯度下降将模型参数推向更优的区域。FST 框架则将后训练重新定义为多通道协同优化问题：快文本通道和慢参数通道各司其职，共同承担适应的负载。这不仅仅是一个技术改进，而是一个概念性的范式转换——它暗示了"所有适应都必须写入参数"这一隐含假设本身就是次优的。

从认知科学的角度来看，这种区分也呼应了声明性知识（declarative knowledge，知道"什么"）与程序性知识（procedural knowledge，知道"如何"）的经典区分。快文本权重更像是声明性知识——明确、可表达的规则和指导；慢参数权重更像是程序性知识——内隐、自动化的行为倾向。FST 让 LLM 同时拥有这两种知识形式，并通过协同训练使它们相互强化。

FST 框架的实际应用前景广阔。首先，对于需要持续学习的部署场景——例如一个对话系统需要不断适应新的用户群体、新的产品功能或新的知识领域——FST 提供了一条比纯参数 RL 更可持续的路径。其次，对于资源受限的训练场景，FST 的 1.4–3.0× 数据效率提升意味着可以用更少的计算资源达到相同的性能水平。第三，对于需要保持基座模型通用能力的场景（如通用助手在垂直领域微调时），FST 的低 KL 漂移特性可以帮助避免"对齐税"（alignment tax）问题。

然而，要将 FST 部署到实际系统中，还需要解决一些工程挑战。GEPA 的每次运行都需要调用外部反射 LM（论文使用 gpt-5.2），这引入了额外的 API 成本和延迟。虽然论文展示了 rollout 重用可以显著降低墙钟时间，但端到端的 FST 运行仍然比同等步数的纯 RL 更昂贵。此外，GEPA 的文本进化过程本身是一个黑箱——虽然它有效，但对其内部决策过程的理解和控制仍然有限。

这篇论文在多个维度上表现出色。实验设计尤其值得称赞：作者不是简单地报告最终准确率，而是从数据效率、渐近线、KL 散度、可塑性和持续学习五个不同角度系统性地验证了框架的优势，每个角度都有独立的实验支撑。消融实验也做得非常扎实——对种群大小 $K$ 、优势基线策略、周期长度 $T$ 和 GEPA 配方（light vs full）的逐一分析，为理解方法的行为提供了深入的见解。

然而，论文也存在一些诚实的局限。首先，它主要依赖于一个特定的 GEPA 实现和 CISPO 慢权重优化器的组合，框架对其他优化器组合的鲁棒性尚未充分探索。其次，Polaris 任务的异常结果（FST 和 RL 在 KL-奖励平面上重叠）表明，当基座模型的指令跟随能力较弱时，快权重通道的效果会大打折扣。这提示我们 FST 的收益可能高度依赖于基座模型的质量。第三，论文中的持续学习实验只涉及三个任务的顺序切换，更复杂、更长序列的持续学习场景尚未测试。最后，GEPA 的文本空间搜索虽然在实践中有效，但其样本效率和收敛保证的理论分析仍然缺失。

FST 框架与当前 LLM 领域的一些重要趋势产生了有趣的共鸣。例如，它与"测试时计算"（test-time compute）的思想共享一个基本假设：智能不仅来自参数中的知识，还来自推理时的动态过程。FST 将这一思想延伸到了训练阶段：适应不仅来自参数的更新，还来自上下文的动态演化。同时，FST 也与近期关于"复合 AI 系统"（compound AI systems）和"语言模型程序"（LM programs）的研究方向一致——这些方法同样强调将 LLM 的行为组织为多个可调整组件的协同，而非单一模型的端到端优化。

延伸阅读与思考

FST 框架建立在几条并行的研究脉络之上。在慢学习方面，可验证奖励的强化学习（RLVR）已经通过 DeepSeek-R1（Guo et al., 2025）、Tulu 3（Lambert et al., 2025）和 ScaleRL（Khatri et al., 2025）等系统得到了充分验证。CISPO 损失函数（MiniMax et al., 2025）和 GRPO（Shao et al., 2024）为高效的大规模 RL 训练提供了技术基础。在快学习方面，自动提示词优化的文献已经相当丰富：从早期的 APE（Zhou et al., 2023）和 OPRO（Yang et al., 2024），到基于 DSPy 的编译式优化（Khattab et al., 2023; Opsahl-Ong et al., 2024），再到进化式方法如 PromptBreeder（Fernando et al., 2023）和 EvoPrompt（Guo et al., 2024）。GEPA（Agrawal et al., 2026）是这一谱系中的最新成员，其 Pareto 前沿种群和显式突变操作是其独特之处。

在快-慢权重的理论谱系中，McClelland 等人的互补学习系统理论（1995）和 Hinton & Plaut（1987）、Schmidhuber（1992）以及 Ba 等人（2016）的工作为本文提供了概念基础。最近，Pham 等人（2022）也探讨了持续学习中的快-慢分解，但他们的实现方式与本文的文本级快权重有本质不同。

FST 并非将文本反馈与参数优化结合的唯一尝试。BetterTogether（Soylu et al., 2024）交替进行 SFT 和 DSPy 管道上的提示词优化，但其提示词优化器不使用文本反馈。LANPO（Li et al., 2025）通过每实例反射来交织语言和数值反馈，但本文则维护跨问题的 Pareto 前沿种群。E-SPL（Zhang et al., 2026）在较小规模上探索了提示词优化和 RL 的结合，但关注性能而非适应性。mmGRPO（Ziems et al., 2025）先运行一次提示词优化，然后在 DSPy 程序上运行 RL；FST 则在整个训练过程中周期性地交织两者。POPE（Qu et al., 2025）在困难提示词前添加部分参考解，而 FST 学习的是可以条件化任何 rollout 的任务级提示词——两者的结合是一个自然的未来方向。

FST 框架开启了多个值得探索的研究方向。首先，框架目前使用的是 CISPO 和 GEPA 的特定组合，研究其他慢权重优化器（如 DPO、IPO）和快权重优化器（如基于梯度的提示词调优、TextGrad）的组合效果将非常有价值。其次，论文中的 Polaris 异常结果表明，基座模型的指令跟随能力对快权重通道的效果有显著影响——系统性地研究这一依赖关系，并开发在弱指令跟随模型上增强快权重效果的方法，是一个重要的开放问题。第三，GEPA 的文本进化虽然有效，但其计算成本不可忽视——开发更高效的快权重优化方法，或者探索将快权重从离散文本空间扩展到连续软提示（soft prompts）空间的可能性，都可以进一步提升框架的实用性。第四，论文中的持续学习实验虽然鼓舞人心，但还相对简单——在更长的任务序列、更动态的任务分布和更接近真实部署环境的设置中测试 FST，将是对其持续学习能力的真正考验。

FST 框架也引出了一些更深层次的开放问题。最核心的或许是：快权重和慢权重之间的"最优分工"是什么？在什么条件下任务信号应该主要走快通道，什么条件下应该主要走慢通道？这涉及到对 LLM 内部知识表示结构的深刻理解。另一个开放问题是快权重的"可组合性"：当模型学会了多个任务的快权重后，这些提示词能否被组合或泛化到新的复合任务？最后，FST 的低 KL 漂移特性和可塑性保持之间的因果关系虽然被观察到，但其底层的理论机制——为什么分担任务适应到快通道就能保留慢通道的通用能力——仍然缺乏严格的数学刻画。

这篇论文最令我深思的洞见，是它将 LLM 的适应过程与人类认知进行类比的方式。人类大脑并非将所有经验都同等地写入长期记忆——有些是即时可用的工作记忆内容，有些则需要经过巩固（consolidation）才能进入长期存储。FST 框架在机器学习中复现了这一分工，并且用一个出人意料的载体（自然语言提示词）来实现快权重。这提示了一个更广泛的哲学问题：LLM 的文本上下文是否正在成为一种新型的"机器工作记忆"？如果这些提示词可以被优化、进化和组合，那么我们是否正在见证一种全新的计算范式的诞生——在这种范式中，自然语言不仅是人机交互的媒介，也是机器内部信息处理的直接载体？

另一个引人深思的观察来自进化后提示词的性质：它们最终都变成了"负面清单"——一系列"不要做 X"的指令。这与人类专家知识的积累方式惊人地相似：新手通过试错发现陷阱，专家则将这些陷阱编码为可传授的警告。如果 LLM 的快权重演化确实在复现这一过程，那么 FST 可能不仅仅是一种训练技巧，而是一种让机器从经验中"提炼规则"的通用机制。我期待看到这一框架在更广泛的认知任务上的应用，以及它与神经符号 AI（neuro-symbolic AI）和可解释性研究的交叉。

笔记创建时间: 2026-05-13
阅读方式: L2 深度阅读

Topics: