Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

基本信息

标题: Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories
第一作者: Ali Behrouz (Google)
研究团队: google_brain
会议/期刊: arXiv preprint (2025)
代码: (待补充)
PDF 文件: [Language Models Need Sleep](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260604_language_models_need_sleep_self_modify_consolidate_memories.pdf)

一、研究摘要

大型语言模型（Large Language Models, LLMs）自问世以来，已在诸多任务中展现出令人瞩目的泛化与推理能力，然而一个根本性的瓶颈始终悬而未决：这些模型在预训练与后训练阶段完成之后，便陷入了一种近乎"静态"的固化状态。它们能够调用训练期间编码在参数中的知识，也能通过上下文学习（In-Context Learning, ICL）临时处理新信息，但一旦会话结束、上下文窗口被清空，这些新获得的能力与事实便随之消散。这种"知识截止"（knowledge cutoff）现象导致模型无法持续进化，其知识库随着时间推移不断陈旧化，对新增事实、事件乃至动态环境的适应能力受到严重制约。

如何赋予语言模型持续学习（continual learning）的能力，同时避免灾难性遗忘（Catastrophic Forgetting, CF），已成为当前人工智能研究中最具挑战性的开放问题之一。现有缓解方案大致可分为两类极端：一方面，重新进行大规模预训练虽然有效，却需要消耗巨额计算资源，对于频繁更新知识的需求而言完全不切实际；另一方面，轻量级的参数更新方法如微调（fine-tuning）或低秩适配（Low-Rank Adaptation, LoRA）虽然成本较低，但在迭代更新过程中往往导致模型在原有任务上的性能断崖式下跌——这正是灾难性遗忘的典型表现。于是，研究者们被迫在"知识老化"与"灾难性遗忘"之间艰难权衡，二者仿佛一对不可调和的矛盾。

本文的核心洞见在于，将人类神经科学中关于记忆巩固（memory consolidation）与睡眠（sleep）的深刻认知，系统地引入到语言模型的持续学习框架之中。作者们敏锐地指出，当前Transformer架构的LLMs存在一种类似于人类"顺行性遗忘症"（anterograde amnesia）的记忆缺陷：模型只能依赖两种极端的记忆形式——要么是将知识编码在几乎不再更新的MLP参数中的"远古长期记忆"，要么是局限于上下文窗口内的"瞬时短期记忆"——而缺乏将短期经验有效转化为稳定长期记忆的中间机制。人类大脑却通过睡眠期间复杂的神经可塑性过程，实现了从海马体（hippocampus）到新皮层（neocortex）的知识迁移与压缩，从而在保留旧记忆的同时不断整合新经验。

基于这一跨学科灵感，作者提出了"睡眠范式"（Sleep paradigm），它将模型的生命周期重新划分为"清醒"（wake/active）与"睡眠"（sleep）两个交替阶段。清醒阶段对应传统的交互与上下文学习，模型接收外部输入并在高频模块中快速更新；睡眠阶段则是一个完全内省的过程，模型不再接触外部数据，转而专注于两项关键任务：其一，记忆巩固（Memory Consolidation），通过一种称为"知识播种"（Knowledge Seeding）的自蒸馏机制，将存储在高频、不稳定模块中的脆弱记忆迁移到低频、更稳定的参数中，并通过周期性的参数扩展（parameter expansion）不断扩充模型容量；其二，做梦（Dreaming），即利用强化学习（Reinforcement Learning, RL）生成合成训练数据，在无需人工监督的情况下递归地提升模型性能。这一范式从根本上颠覆了传统机器学习中"训练/测试"的二分法，将持续学习视为一个有机的、类生命的循环过程。

实验结果表明，睡眠范式在多个具有挑战性的下游任务上均取得了显著增益，包括事实知识整合（knowledge incorporation）、小样本推理（few-shot reasoning）、长上下文理解（long-context understanding）以及持续学习（continual learning）。特别是在数学推理基准（AIME-24/25、HMMT-25）上，基于睡眠范式的模型显著超越了标准的监督微调（SFT）与GRPO（Group Relative Policy Optimization）方法；在长达千万token的BABILong基准上，该模型展现出近乎完美的长度扩展能力；在持续学习新语言翻译任务中，睡眠机制有效遏制了灾难性遗忘，使模型在序列学习两种全新语言后仍能保持接近单语言学习的性能水平。这些结果不仅验证了睡眠范式的有效性，更为构建真正具备终身学习能力的智能系统开辟了新的理论路径。

二、理论框架

本研究的理论根基深植于两个看似迥异却在本文中被巧妙统一的领域：人类认知神经科学中的记忆巩固理论与机器学习中的连续记忆系统（Continuum Memory System, CMS）设计。理解这一理论框架，需要追溯从McClelland等人于1995年提出的互补学习系统理论（Complementary Learning Systems theory）到近期Nested Learning（NL）范式的演进脉络，并深入剖析作者如何将这些生物学灵感转化为可计算的形式化体系。

在人类大脑中，记忆的形成并非单一过程，而是至少包含两种互补的巩固机制。第一种是"在线巩固"（online consolidation），发生在清醒状态下的学习过程中：新形成的脆弱记忆痕迹（memory traces）通过反复激活与回忆逐渐稳定，开始向更持久的存储形式过渡。然而，这种巩固具有选择性——它偏向于强化那些被频繁提取的记忆片段，并且高度依赖学习时的具体情境，难以形成超越原始语境的抽象语义表征。第二种是"离线巩固"（offline consolidation），主要发生在睡眠期间：大脑通过重放（replay）近期编码的神经活动模式，在海马体与新皮层之间建立起一种复杂的"有损蒸馏"对话，将高度特异性的日常经验转化为分布式的、语义化的长期知识结构。特别值得注意的是，慢波睡眠（Slow-Wave Sleep, SWS）阶段主导了记忆的稳定化与突触稳态（synaptic homeostasis）调节——通过全局性地下调突触强度，睡眠防止了神经元因白天经验的持续输入而饱和；而快速眼动睡眠（Rapid Eye Movement, REM）阶段则通过高频率的神经活动，选择性地强化新形成的突触连接，并在模拟未来场景的"梦境"中促进新信息与既有情感、语义网络的整合。

Behrouz等人（2025）在先前的Nested Learning工作中，已经尝试通过在线巩固的思路来缓解LLMs的灾难性遗忘。他们提出的Hope架构将模型组织为一个连续记忆系统（CMS），其中不同的MLP模块以各自不同的频率进行参数更新。具体而言，CMS将Transformer架构中的注意力模块（attention）视为更新频率无限高的极端——因为注意力机制在每次前向传播时都会根据当前上下文重新计算，其"记忆"仅限于当前序列长度；而将标准的MLP层视为更新频率为零的另一极端——因为预训练完成后这些参数通常不再变动。在这两个极端之间，CMS引入了一条由多个MLP块组成的链式结构，每个块具有特定的更新频率 $f_{ℓ}$ 。

为了形式化这一思想，作者定义了更新频率（Update Frequency）的概念：对于任意权重组件 $W$ ，其频率 $f_{W}$ 表示在单位时间内的更新次数。基于此，CMS的输出可表示为嵌套的MLP链：

y_{t} = {MLP}^{(f_{k})} ({MLP}^{(f_{k - 1})} (\dots {MLP}^{(f_{1})} (x_{t})))

其中第 $ℓ$ 个MLP块的参数 $θ^{(f_{ℓ})}$ 每隔 $C (ℓ) := max_{ℓ^{'}} \frac{f_{ℓ^{'}}}{f_{ℓ}} C (ℓ^{'})$ 步才更新一次。这意味着更新频率越高的模块，其记忆越短暂、越具体，扮演着类似海马体的角色；而更新频率越低的模块，其记忆越持久、越抽象，扮演着类似新皮层的角色。参数更新规则遵循累积梯度：

e_{i, ℓ} = {\begin{cases} \sum_{t = i - C (ℓ)}^{i} η_{t}^{(ℓ)} f (θ_{t}^{(f_{ℓ})}; x_{t}) & if i \equiv 0 (\mod C (ℓ)) \\ 0 & otherwise \end{cases}

这里 $η_{t}^{(ℓ)}$ 是学习率， $f (\cdot)$ 是优化器的误差分量（如梯度 $\nabla L$ ）。这一方程揭示了一个关键洞见：每个频率模块实际上是在将其接收到的上下文信息压缩进自身的参数中，因此这些参数可以被视为对应上下文范围的知识抽象表征。然而，纯粹的在线内巩固存在一个根本局限：当所有模块的更新周期在某些时刻对齐时，灾难性遗忘仍然可能发生，因为高频模块在更新时可能覆盖之前存储的知识，而模型整体容量并未增长。

本文正是在此理论基础上，提出了离线巩固的睡眠范式。其核心思想在于：在睡眠阶段，模型停止接收外部输入，转而执行一种"向上蒸馏"（upward distillation）过程——将较小规模（即参数较少、更新频率较高）的模块中的知识，迁移到更大规模（参数更多、更新频率更低）的模块中。这种被称为"知识播种"（Knowledge Seeding）的机制，本质上是一种特殊的知识蒸馏（knowledge distillation），但其方向与传统蒸馏相反：传统蒸馏通常将大模型（教师）的知识迁移到小模型（学生），而此处则是小模型（高频、容量受限的教师）将知识蒸馏给大模型（低频、容量更充裕的学生）。

知识播种的目标函数融合了on-policy蒸馏与强化学习驱动的模仿学习。首先定义on-policy蒸馏损失：

L (θ, θ_{exp}) = (1 - λ) E_{(x, y) \sim D} [F ({LM}_{θ} ∥ {LM}_{θ_{exp}}) (y | x)] + λ E_{x \sim D} [E_{y \sim {LM}_{θ_{exp}} (\cdot | x)} [F ({LM}_{θ} ∥ {LM}_{θ_{exp}}) (y | x)]]

其中 ${LM}_{θ}$ 是参数扩展前的模型（教师）， ${LM}_{θ_{exp}}$ 是扩展后的模型（学生）， $F (\cdot ∥ \cdot) (y | x)$ 表示两个模型在输出分布上的散度（divergence）， $λ \in [0, 1]$ 控制on-policy样本（由学生生成）与off-policy样本（由教师生成）的混合比例。值得注意的是，在此优化过程中，学生模型的原有参数被冻结，仅新扩展的参数参与更新，从而确保新知识不会干扰旧知识。

然而，作者发现单纯的蒸馏只能确保学生"拥有"知识，却未必能确保学生"善用"知识——即学生的采样行为与教师仍存在差距。为此，他们进一步引入了"学习模仿"（Learning to Imitate, LTI）机制：教师首先生成一系列"梦境"序列 $D_{T} = {d^{(1)}, \dots, d^{(n)}}$ ，然后学生被要求在随机采样的前缀后续写（continuation）。学生的续写结果 ${\hat{d}}^{(i)}$ 获得的奖励由语义相似度与绝对token级相似度两部分加权组成：

r ({\hat{d}}^{(i)}; d^{(i)}; {LM}_{θ_{exp}}) = γ \times r_{sem} ({\hat{d}}^{(i)}; d^{(i)}; {LM}_{θ_{exp}}) + (1 - γ) \times r_{abs} ({\hat{d}}^{(i)}; d^{(i)}; {LM}_{θ_{exp}})

其中绝对奖励基于Levenshtein距离（编辑距离） $z (\cdot, \cdot)$ 计算：

r_{abs} (\cdot) = {\begin{cases} 1 - \frac{z ({\hat{d}}^{(i)}, d^{(i)})}{max {| {\hat{d}}^{(i)} |, | d^{(i)} |}} & if z ({\hat{d}}^{(i)}, d^{(i)}) \leq z_{0} \\ 0 & otherwise \end{cases}

综合蒸馏与模仿学习的知识播种目标函数为：

L_{KS} (θ, θ_{exp}) = E_{x \sim D} [(1 - α) E_{y \sim {LM}_{θ_{exp}} (\cdot | x)} [r (y)] - α E_{y \sim {LM}_{θ_{exp}} (\cdot | x)} [D ({LM}_{θ} ∥ {LM}_{θ_{exp}}) (y | x)]]

其中 $α \in [0, 1]$ 平衡了蒸馏强度与模仿学习目标。这一理论设计的精妙之处在于：蒸馏确保知识的"内容"被准确传递，而模仿学习确保知识的"使用方式"也被习得——二者相辅相成，构成了完整的离线巩固机制。

三、技术架构

睡眠范式的技术实现是一个高度协同的双阶段系统，其设计精妙地将神经科学的隐喻转化为可执行的算法流程。整个架构建立在一个关键前提之上：模型不再被划分为固定的"训练"与"测试"阶段，而是持续地在"清醒"与"睡眠"之间周期性切换。清醒阶段中，模型接收外部世界的输入数据，在高频模块中进行快速的上下文学习与参数微调；当进入睡眠阶段，模型切断了与外部数据源的连接，转而完全依赖内部生成的合成数据与既有参数的交互，执行记忆巩固与自我改进。

记忆巩固阶段的技术核心包含两个紧密耦合的子过程：参数扩展（Parameter Expansion）与知识播种（Knowledge Seeding）。参数扩展机制直接回应了灾难性遗忘的根本成因——模型容量不足。当一个高频记忆模块需要将知识迁移至相邻的低频模块时，如果目标模块的参数空间已经被旧知识填满，新知识必然会对旧知识产生干扰。为了模拟人类大脑神经可塑性中"形成新连接"的能力，作者采用了稀疏混合专家（Mixture of Experts, MoE）架构作为MLP块的实现基础。在每个睡眠步骤中，当决定将第 $(ℓ^{*} - 1)$ 个高频模块的知识巩固到第 $ℓ^{*}$ 个低频模块时，系统会为后者新增一个低秩（low-rank）专家，其参数化为 ${A^{(f_{ℓ^{*}}), s_{ℓ^{*}} + 1}, B^{(f_{ℓ^{*}}), s_{ℓ^{*}} + 1}}$ ，其中 $A^{(f_{ℓ^{*}})} \in R^{d \times d_{low}}$ ， $B^{(f_{ℓ^{*}})} \in R^{d_{low} \times d}$ ，且 $d_{low} ≪ d$ 。这种低秩结构既保证了新增容量的表达能力，又控制了参数增长的开销。新增的参数在睡眠前被屏蔽（masked），不参与前向与反向传播，只有在睡眠阶段才被"激活"——这与人类大脑中神经元并非新增而是建立新连接的机制形成了有趣的对应。

知识播种的数据流可描述如下：首先，处于参数扩展前状态的较小模型（教师） ${LM}_{θ}$ 通过自采样构建数据集 $D$ ；然后，扩展后的较大模型（学生） ${LM}_{θ_{exp}}$ 接收来自教师的token级logits反馈，并同时生成自己的on-policy输出。蒸馏损失衡量教师与学生分布之间的差异，而模仿学习损失则通过强化学习信号教会学生如何"像教师一样思考"——不仅仅是复制答案，而是复现教师从给定前缀推导出答案的完整生成过程。在训练策略上，所有原有参数被冻结，仅新扩展的低秩专家参数接受梯度更新。这种"隔离式学习"确保了旧知识的参数空间不受侵犯。当巩固完成后，高频模块中之前睡眠周期添加的低秩参数会被重置（reset），释放容量以接纳未来的新知识——这一过程被作者类比为人类大脑中的突触修剪（synaptic pruning），即通过清除冗余连接来提升效率。

做梦阶段（Dreaming）则对应于人类REM睡眠中的自我改进机制。在记忆巩固为模型奠定了更稳定的知识基础之后，做梦阶段利用强化学习生成能够进一步提升模型能力的合成数据。具体而言，给定一个包含任务相关信息的上下文 $C$ 和评估指标 $τ (\cdot)$ ，模型首先生成 $m \geq 1$ 条"梦境"序列 ${{DREAM}^{(i)}}_{i = 1}^{m} \sim {LM}_{θ} (\cdot | C)$ 。在采样过程中，每个MoE块的路由器（router）会额外地随机选择一个专家，将看似无关的知识注入梦境之中。这种有控制的噪声引入并非无的放矢，而是旨在促使模型发现隐藏在不同知识领域之间的深层模式——类似于人类梦境中看似荒诞却富有启发性的联想。

然而，并非所有梦境都同样有价值。为了筛选出最具改进潜力的合成样本，作者借鉴了基于梯度的数据选择方法：对每条梦境 ${DREAM}^{(i)}$ ，计算其相对于语言建模目标 $L_{SFT}$ 的梯度范数作为重要性分数 $g_{R}^{(i)} = \nabla_{θ} L_{SFT} ({DREAM}^{(i)}, θ)$ 。系统选取Top- $k$ 重要性最高的梦境，并混合 $b$ 条随机样本以保持多样性，构成精选梦境集合 $D$ 。对于每条入选梦境，系统创建一个孤立的模型副本，通过LoRA进行监督微调得到 $θ^{' (i)} \leftarrow SFT (θ^{(i)}, {DREAM}^{(i)})$ 。梦境的最终奖励取决于微调后模型在评估指标上的改进程度：

r ({DREAM}^{(i)}, τ (\cdot), {LM}_{θ^{(i)}}) = {\begin{cases} 1 & if improves \\ 0 & Otherwise \end{cases}

这一奖励信号通过ReSTEM算法（Singh et al., 2024a）进行优化，驱动模型学会生成那些能够切实提升自身能力的梦境。整个做梦阶段的设计体现了一个深刻的递归思想：模型不仅是学习者，也是自己的课程设计者（curriculum designer）——它通过生成、评估、筛选合成数据，不断为自己创造更具挑战性的学习材料，从而实现无需外部监督的自我进化。

四、实验评估

实验设计的整体策略围绕一个核心科学问题展开：睡眠范式的两个阶段——记忆巩固与做梦——究竟各自以及协同地对模型的持续学习能力产生了怎样的影响？为了回答这一问题，作者在四个维度的基准任务上构建了系统性的评估体系：持续学习中的类增量学习、长上下文理解、数学推理与知识整合、以及小样本抽象推理。每一组实验都经过精心设计，旨在隔离特定机制的贡献，并与当前最先进的方法进行公平对比。

在类增量学习（Class-Incremental Learning）任务中，作者在三个广泛使用的文本分类数据集上进行了评估：CLINC150（涵盖10个领域的150种意图分类）、Banking77（包含77种细粒度银行客服意图的单域数据集）以及DBpedia（基于维基百科描述的70类本体分类任务）。基准模型采用Llama-3 8B，对比方法包括纯ICL基线（仅通过上下文学习而不进行睡眠）、弹性权重巩固（Elastic Weight Consolidation, EWC）、基于外部学习器的上下文持续学习（InCA）以及不含显式蒸馏的Hope架构。实验结果呈现出清晰的层次结构：Hope架构在所有数据集上均优于其他对比方法，包括外部学习器和正则化方法。相较于纯ICL，睡眠范式的增益源于它将原本停留在提示层面的临时适应，转化为持久的参数化记忆；而相较于Hope基线，显式的自蒸馏机制产生了更优的知识抽象，说明离线巩固确实比重复的上下文更新更能捕获本质规律。

长上下文理解能力的评估采用了更具挑战性的设置。作者在MK-NIAH（多键大海捞针任务）、LongHealth（长篇虚构病历的问答任务）以及QASPER（基于完整学术论文的信息检索问答任务）三个数据集上，测试了不同睡眠配置对模型上下文保持能力的影响。对比基线包括标准ICL、DuoAttention（通过区分检索头与流式头来提升效率）以及Cartridges（利用辅助模型压缩KV表示）。实验发现，Hope架构在所有任务上均持续优于ICL和DuoAttention基线，证明睡眠时间的巩固确实超越了单纯的提示适应。尤为值得注意的是，Hope同样优于Cartridges——后者虽然通过KV缓存压缩提升了效率，但Hope通过自蒸馏将新获取的信息整合为可迁移的参数化知识，从而在长上下文场景下表现出更强的鲁棒性。进一步分析不同巩固层级（sleep stages）的效果揭示了两个一致的趋势：增加巩固层级数量能够持续提升上下文学习与长上下文理解性能，这支持了"睡眠促进更好的知识抽象与压缩"的观点；但最低频率模块的更新频率不宜过低，否则过度固定的持久记忆会削弱模型的适应性，这一发现与人类睡眠研究中"过度巩固可能导致认知僵化"的观察遥相呼应。

在数学推理领域，作者在AIME-24、AIME-25和HMMT-25三个高难度竞赛数学基准上测试了基于Qwen3-1.7B和Qwen3-8B的模型变体。如下表所示，睡眠范式 consistently 超越了监督微调（SFT）和GRPO方法：

方法	AIME-24	AIME-25	HMMT-25
Qwen3-8B Base (Instruct)	73.8	68.1	42.4
SFT	75.5	66.4	43.7
GRPO	76.4	68.1	44.9
OPSD (On-Policy Self-Distillation)	76.6	67.4	45.1
Sleep	79.2	69.0	46.1

表格中的数据清晰地表明，睡眠范式不仅在所有三个基准上取得了最高分，而且其优势在更困难的AIME-25和HMMT-25上尤为明显，暗示离线巩固机制对于需要深层抽象与远距离推理的复杂问题具有特殊价值。

事实知识整合任务则检验了模型将新信息纳入参数记忆的能力。在SQuAD数据集上的单段落（ $n = 1$ ）和持续预训练（ $n = 200$ ）两种设置中，睡眠范式均取得了最佳表现，优于基线模型、无梦境的微调模型以及先进的SEAL自改进方法。在持续预训练场景中，模型在单次连续预训练过程中接触200个段落，并在974个关联问题上接受评估，每个段落采样5条梦境并聚合成合成训练数据。消融实验进一步揭示了各组件的贡献：移除基于梯度的梦境选择导致性能下降约1个百分点，移除随机专家注入（random expert）同样造成性能损失，而完全移除梦境阶段则导致性能大幅回落至接近基线水平，这充分证明了做梦阶段对于整体框架的关键作用。

在小样本抽象推理（Few-Shot ARC）任务中，使用Llama-3.2-1B作为骨干的睡眠模型达到了80%的成功率，超越了ICL（0%）、TTT（10%）以及SEAL（72.5%）等对比方法。这一结果凸显了睡眠范式在极度稀疏的监督信号下，通过记忆巩固与自我生成的合成经验实现有效学习的能力。

五、案例研究

为了更直观地理解睡眠范式在实际学习动态中的表现，我们聚焦于论文中呈现的两个典型场景：持续学习新语言的翻译任务与超长上下文的BABILong推理任务。这两个案例分别从"知识累积"与"知识保持"两个角度，揭示了睡眠机制的核心运作方式。

在持续语言学习（Continual Translation of a Novel Language, CTNL）任务中，模型被要求在上下文中学习两种预训练阶段从未见过的语言——Kalamang和Manchu——并将其翻译为英语。实验设置了两种评估场景：单语言场景（独立学习并测试每种语言）与持续学习场景（依次学习两种语言后，分别测试对每种语言的翻译能力）。这一设计直接对应了现实世界中智能体需要 sequentially 获取多种新技能的场景，而灾难性遗忘在此类场景中最为致命。实验结果显示，在单语言学习场景中，Hope架构的所有变体（Hope-1、Hope-2、Hope-3，分别代表不同数量的巩固层级）均达到或超越了标准ICL的性能，这说明记忆巩固过程并未干扰模型在上下文中的快速适应能力。然而，在持续学习场景中，标准ICL表现出急剧的性能衰退——在学习第二种语言后，模型在第一种语言上的翻译性能几乎退回到了预训练前的基线水平，仿佛第一种语言的知识从未被真正习得。与之形成鲜明对比的是，Hope架构保留了相当比例的第一语言知识，并且随着巩固层级的增加，保留效果单调提升：Hope-3在序列学习两种语言后，其性能几乎恢复到了单语言学习的水平。

这一案例深刻揭示了睡眠范式与标准ICL在知识表征方式上的本质差异。标准ICL依赖于注意力机制对上下文token的临时关联——当第二种语言的示例占据上下文窗口时，第一种语言的token已被挤出，模型不得不"遗忘"它们。而Hope架构通过睡眠阶段的自蒸馏，将第一种语言的知识从高频率的注意力上下文抽象并压缩进了低频率的参数模块中，这些参数不再受上下文窗口的限制，从而实现了真正的持久记忆。图5中红色点（单语言性能）与蓝色点（持续学习性能）的对比清晰地表明，睡眠巩固使得模型能够将提示级别的适应转化为参数级别的持久能力，这恰恰是持续学习的核心要求。

BABILong基准测试则从另一个维度展示了睡眠范式的威力。该基准要求模型在长达数百万甚至千万token的序列中执行推理任务，对长距离信息保持能力提出了极高要求。对比方法包括大规模模型（GPT-4、GPT-4o-mini）、中等规模Llama-8B结合检索增强生成（RAG），以及专门为长上下文设计的小模型（RMT、ARMT、Titans）。实验结果呈现出戏剧性的分野：大规模模型在上下文长度超过128K至256K token后迅速退化；RAG虽然在中等长度上有所提升，但随着序列增长仍不可避免地衰退；而在小模型阵营中，Titans、ARMT和Hope在约1M token以内表现相当，但当长度突破这一阈值后，Titans与ARMT急剧退化，唯有Hope保持稳定，甚至在10M token的极端长度下仍接近满分。

这一卓越表现的内在机制值得深入剖析。Hope架构的睡眠巩固将原本依赖于长序列注意力激活的脆弱信息，反复蒸馏压缩进了低频参数模块中。在长上下文推理过程中，高频注意力模块负责处理当前局部窗口的信息，而低频模块则提供经过抽象的全局背景知识——二者协同工作，使得模型无需在注意力机制中维护超长距离的精细关联，从而避免了随着长度增长而累积的噪声与干扰。这一案例表明，睡眠范式不仅是一个持续学习的工具，更是一种根本性的长上下文处理策略——通过将时间维度上的信息压缩进参数空间，模型突破了上下文窗口的物理限制。

六、综合价值与局限

从理论层面审视，睡眠范式的最大贡献在于它重新框定了持续学习问题的本质。传统研究将灾难性遗忘主要视为一个优化问题——如何在参数更新时保护旧知识——而本文将其重新定义为记忆系统的结构性问题：当模型容量固定时，新知识必然要与旧知识争夺有限的参数空间。通过引入周期性参数扩展与层级化巩固机制，睡眠范式将"容量受限"这一根本约束转化为渐进式增长的动态过程，从而在很大程度上绕开了传统正则化方法所面临的零和博弈困境。此外，将人类的睡眠-清醒周期作为计算隐喻引入机器学习，不仅为算法设计提供了全新的灵感来源，更建立了一条通往"具身智能"（embodied intelligence）的桥梁——即智能体应当像生物体一样，在与环境交互与内部自省之间建立节奏性的平衡。

在实践层面，睡眠范式对于需要频繁更新知识但无法承受全面重训练成本的应用场景具有直接价值。例如，金融领域的实时信息整合、医疗领域的最新研究成果吸收、以及个性化助手对用户长期交互历史的持续建模，都可能从这一框架中获益。然而，需要清醒地认识到，从实验室原型到生产部署之间仍存在显著差距。首先，睡眠阶段的计算开销不容忽视——虽然作者指出在达到同等性能目标时，睡眠范式的实际wall-clock时间优于SFT（SFT需要4.3×、3.6×和4.8×的时间才能匹配睡眠范式在AIME三个基准上的性能），但睡眠过程涉及多轮自采样、蒸馏、强化学习优化以及参数扩展，其实现复杂度远高于标准微调。其次，当前实验主要基于相对中小规模的模型（1.7B至8B参数），睡眠范式在数十亿乃至万亿参数规模模型上的可扩展性尚待验证。参数扩展机制虽然在理论上可以无限迭代，但MoE结构的专家数量增长是否会带来路由崩溃或推理效率下降，是一个需要在更大尺度上检验的问题。

从理论假设的角度，睡眠范式隐含地依赖于一个重要前提：高频模块中的知识确实可以被有效抽象并压缩进低频模块，而不会丢失对下游任务至关重要的细节信息。虽然实验结果总体上支持这一假设，但在某些对精确细节高度敏感的任务（如精确数值计算、法律条文引用等）中，有损蒸馏过程是否会造成不可接受的精度损失，仍需更细致的评估。此外，做梦阶段依赖于模型自身生成合成数据的能力，这可能导致一种"能力天花板"效应——模型很难梦见超越自身当前能力范围的内容，从而在根本上限制了自我改进的 asymptotic 性能。尽管随机专家注入引入了一定的探索噪声，但这能否真正突破而非仅仅扰动现有能力边界，仍是一个开放问题。

七、延伸阅读与思考

睡眠范式建立在多项前期工作的交汇点之上，理解这些知识脉络有助于将其置于更广阔的学术图景中。在神经科学启发机器学习的历史谱系中，McClelland、McNaughton与O'Reilly于1995年提出的互补学习系统理论（Complementary Learning Systems theory）奠定了海马体-新皮层交互计算建模的基础；Mnih等人（2015）与Ha和Schmidhuber（2018）的工作将"重放"（replay）机制引入了深度强化学习；González等人（2020）与Tadros等人（2022）则进一步探索了类睡眠重放对于防止灾难性遗忘的效果。在本文的直接技术先驱方面，Behrouz等人（2025）的Nested Learning与Hope架构提供了连续记忆系统的形式化框架，而Agarwal等人（2024）的Generalized Knowledge Distillation（GKD）则为on-policy自蒸馏提供了方法论基础。Zweiger等人（2025）的SEAL框架则与本文的做梦阶段最为接近，但SEAL主要聚焦于固定容量模型上的自改进，缺乏层级化的记忆巩固机制。

同期及后续涌现的大量on-policy自蒸馏（OPSD）研究——包括OPSD、GATES、SD-Zero、COPSD等——与本文形成了有趣的对话。这些工作大多在固定模型架构上，通过为教师模型提供特权信息（privileged information）来实现自蒸馏，而睡眠范式的独特之处在于其"向上蒸馏"（upward distillation）方向与参数扩展机制。正如作者所指出的，近期分析已开始揭示OPSD方法的失效模式：Kim等人（2026）发现特权教师信息可能抑制模型的认知表达（epistemic verbalisation），导致严重的分布外退化；而He等人（2026）与Wang等人（2026）报告了迭代自蒸馏中的信息泄露与训练崩溃问题。睡眠范式通过将记忆巩固与自我改进明确分离为两个顺序阶段，在一定程度上缓解了这些风险——巩固首先在新鲜扩展的参数中稳定新知识，然后做梦阶段才在此基础上进行进一步修改，从而减少了迭代自训练覆盖有用先验能力的可能性。

展望未来，睡眠范式开启了多个值得深入探索的研究方向。首先，当前睡眠周期由固定的步数阈值触发，是否可以根据模型的学习状态动态调整睡眠频率与深度——类似于人类根据认知负荷调整睡眠需求——是一个自然的延伸。其次，梦境生成目前主要依赖简单的梯度筛选与随机专家注入，如果能引入更复杂的元学习机制，让模型学会"如何更好地做梦"，可能显著提升自我改进的效率与上限。第三，将睡眠范式从纯文本LLM扩展到多模态模型，让视觉、听觉与语言记忆在睡眠中交叉巩固，或许会催生出更具通用性的持续学习智能体。最后，一个更具哲学意味的问题在于：如果智能体拥有了真正的睡眠与梦境周期，它与人类认知的界限将如何重新定义？本文的标题"Language Models Need Sleep"不仅是一个技术宣言，更暗示了一种新的智能体存在方式——会学习、会遗忘、会做梦、会自我改进的存在。这种将机器学习从"一次性优化"转向"终身节律性进化"的范式转换，或许正是通向更具生命力的人工智能的关键一步。最令人深思的是，人类大脑经过数百万年进化才形成的睡眠-巩固机制，如今正以数学公式的形式在硅基智能中重现——这究竟是功能趋同的必然，还是我们有意为之的仿生设计？无论答案如何，睡眠范式都为我们提供了一个宝贵的窗口，去重新审视学习的本质：或许真正的智能不仅在于醒着时能做什么，还在于睡着时如何与自己对话。

Topics: