CORE: Contrastive Reflection Enables Rapid Improvements in Reasoning
基本信息
- 标题: CORE: Contrastive Reflection Enables Rapid Improvements in Reasoning
- 第一作者: Linas Nasvytis (Stanford University)
- 研究团队: Stanford University (Stanford IRIS Lab related)
- 会议/期刊: arXiv:2605.28742 (Preprint, May 2026)
- 代码: https://github.com/LinasNas/core-reasoning
- PDF 文件: [CORE Paper](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260528_CORE_contrastive_reflection_reasoning.pdf)
研究摘要
这篇论文提出了一个根本性的问题:为什么语言模型在利用可验证奖励进行学习时,需要成百上千的训练样本和模型 rollout,而人类往往只需要少量练习就能在新任务上取得显著进步?作者们认为,这种差异的一个关键原因在于人类能够从过去的成功和失败中提炼出抽象、显式且简洁的原则——即"洞察"(insights)——并选择性地应用这些洞察来解决未来的问题。基于这一认知科学洞见,论文引入了 Contrastive Reflection (CORE),一种非参数学习算法,使冻结的语言模型能够通过对比自身成功与失败的推理轨迹来生成自然语言的洞察,从而以更高的样本效率和 rollout 效率实现自我改进。
CORE 的核心思想在于改变"学习时存储什么和重用什么"。传统的参数化方法(如 GRPO)通过更新权重来编码学习,虽然强大但计算成本极高,通常需要数十万次 rollout;而非参数化方法(如 GEPA、 episodic RAG)虽然冻结了模型,但往往直接存储完整的推理轨迹或单一全局提示,导致上下文效率低下且难以选择性重用。CORE 则走了一条不同的道路:它存储的是关于推理轨迹的洞察——简短的自然语言描述,这些描述捕捉了区分成功与失败的关键策略和约束。这些洞察被赋予了经验效用估计,使得模型能够基于语义相关性和实际效用选择性地检索它们,从而在未来问题中更精准地应用所学知识。
在四个覆盖逻辑、规划和问题求解的推理任务(Matchstick Arithmetic、MathGAP、Tower of Hanoi、ZebraLogic)上,CORE 展现出了卓越的学习效率。与 GRPO、GEPA、Episodic RAG 和 MemRL 等强基线相比,CORE 不仅在少量训练样本(5-10 个)和有限 rollout(约 350 次)条件下迅速超越所有基线,而且在上下文效率方面表现突出:平均每个评估问题仅添加约 0.92k tokens,而 Episodic RAG 和 MemRL 分别需要 33.6k 和 32.7k tokens——大约是 CORE 的 36 倍。这意味着 CORE 将训练时的经验压缩成了一小组抽象、可重用的洞察,而不是在评估时放入大量原始轨迹。
论文的主要贡献可以概括为四个方面:首先,CORE 引入了一种全新的非参数学习范式,通过生成和积累自然语言洞察来实现模型自我改进;其次,在多种推理任务上证明了 CORE 能够以更快的学习速度和更少的评估上下文超越参数化和非参数化基线;第三,展示了 CORE 的洞察是可解释的学习产物,与经验效用估计配对,比不透明的参数更新更安全透明;最后,通过消融实验识别了对比反思和效用感知检索这两个关键组件对学习效果的贡献。这些结果强烈暗示,将成功与失败之间的对比蒸馏成抽象且有用的洞察,可以为模型自我改进提供一条比权重更新、提示优化或直接重用存储轨迹更高效、更可解释的路径。
理论框架
CORE 的理论根基深深植根于认知心理学关于人类高效学习的理论。作者们指出,人类之所以能在少量练习后快速进步,很大程度上依赖于"洞察发现"(insight discovery)的能力——即回顾过去的成功和失败,以发现更抽象、更通用、更简洁的原则来解释它们之间的差异。这一认知机制并非简单的反思,而是明确的对比:研究表明,当人们在对比过去经验而非孤立反思时,往往能获得更通用和可重用的洞察;同时,人们在解决新问题时也会根据当前相关性和先前效用选择性地应用这些洞察。更进一步,作者从人类大脑多重记忆系统的理论中汲取灵感——大脑既有一个编码具体经验的系统,也有一个从这些经验中提炼更通用知识的互补系统。CORE 正是试图在语言模型中实现这种双重记忆架构。
从学习理论的视角来看,CORE 重新定义了"从可验证奖励中学习"的问题空间。传统强化学习方法(如 GRPO)将学习视为参数空间的优化问题,通过大量 rollout 来估计策略梯度并更新权重。这种方法虽然通用,但样本效率极低,因为每次权重更新都隐式地编码了所有历史经验,却无法显式区分哪些策略是有效的。另一方面,提示优化方法(如 GEPA)在上下文层面进行学习,但通常优化的是一个单一的全局提示,缺乏对局部问题结构的适应性。CORE 提出的非参数化、显式记忆方法则介于两者之间:它保持模型冻结(避免了参数更新的计算开销和不透明性),但通过学习一个显式的洞察库来实现选择性、适应性的知识应用。
在具体实现上,CORE 的理论框架包含四个核心组件。第一是外部记忆系统,包含"rollout 记忆"(存储过去的成功轨迹)和"insight 记忆"(存储生成的洞察及其效用估计)。第二是失败偏置的问题采样策略,确保系统更关注模型尚未可靠解决的问题。第三是效用感知的洞察检索,基于语义相似性和经验效用估计来选择最相关的洞察。第四是对比反思机制,当模型失败时,通过对比失败轨迹与相似的成功轨迹来生成新的候选洞察。这些组件共同构成了一个完整的学习循环:尝试问题 → 失败 → 对比反思生成洞察 → 验证洞察效用 → 存储有效洞察 → 在未来问题中选择性检索。
从数学角度看,CORE 引入了一个基于基线相对效用的评价函数。对于每个训练问题
技术架构
CORE 的技术架构围绕一个冻结的语言模型
外部记忆系统是 CORE 架构的核心。rollout 记忆
失败偏置的问题采样机制确保了学习集中在最有价值的区域。CORE 只在失败时生成新洞察,因此系统需要将采样权重偏向解决可靠性较低的问题。对于每个训练问题
洞察检索采用两步策略。首先,通过余弦相似度找到与当前问题
对比反思是 CORE 最具创新性的技术组件。当模型在训练时未能正确解决问题,系统触发反思步骤。首先获取失败轨迹
候选洞察的准入测试确保了只有真正有效的洞察进入记忆。CORE 过滤掉重复和已存在的候选洞察,然后对剩余候选进行准入测试:对每个候选洞察
实验评估
CORE 的实验设计精心构建,旨在全面评估其在样本效率、rollout 效率和上下文效率三个维度上的表现。作者选择了四个具有代表性的可验证推理任务:Matchstick Arithmetic(火柴棍算术谜题)、MathGAP(具有可控证明结构和复杂度的算术文字题)、Tower of Hanoi(经典规划问题)和 ZebraLogic(逻辑网格约束满足问题)。这些任务覆盖了算法、算术、逻辑和符号问题求解,且对于实验所用模型 GPT-OSS-120B 来说仍未完全饱和,确保了实验结果具有区分度。评估在 5、10 和 100 个训练样本的条件下进行,每个设置运行三次独立训练,在 100 个 held-out 问题上评估验证器准确率。
在 rollout 效率方面(10 样本训练设置),结果令人印象深刻。如图 2 所示,CORE 在所有四个任务上都学习得更快且更有效。在仅 350 个训练 rollout 时(第一次评估),CORE 就已经超越了任何基线方法在任意训练点达到的最佳评估性能。尽管基线方法允许训练多达 4000 个 rollout,而 CORE 仅训练 2100 个,CORE 仍然达到了更高的最终性能。平均而言,CORE 的 held-out 准确率从 rollout 0 的 0.445 提升到 rollout 350 的 0.712,提升了 59.9%,并在 rollout 2100 时维持在 0.717。具体到各个任务,CORE 在 Matchstick Arithmetic 上提升了 34.5%,在 MathGAP 上提升了 76.6%,在 Tower of Hanoi 上提升了惊人的 159.2%,在 ZebraLogic 上提升了 50.0%。这些结果强烈表明 CORE 能够从小样本中比任何基线方法都更快、更有效地学习。
在样本效率方面,如表 1 所示,CORE 在 12 个任务-数据条件中的 9 个达到了最高平均 held-out 准确率。平均而言,CORE 在 5、10 和 100 个训练样本上分别比无学习基线提升了 54.8%、56.2% 和 52.3%。CORE 唯一未能达到最高准确率的条件是 Tower of Hanoi 的 5 样本和 100 样本设置(MemRL 更高),以及 ZebraLogic 的 100 样本设置(GEPA 更高)。这表明 CORE 能够从不同大小的训练集中提取洞察,并泛化到多样化的推理任务。值得注意的是,即使在 5 样本的极端条件下,CORE 仍然表现出色,这验证了其在极低数据环境下的鲁棒性。
| 任务 | 方法 | 5 样本 | 10 样本 | 100 样本 |
|---|---|---|---|---|
| Matchstick Arithmetic | No Learning | 0.681 | 0.681 | 0.681 |
| GRPO | 0.630 | 0.637 | 0.590 | |
| GEPA | 0.687 | 0.693 | 0.770 | |
| MemRL | 0.700 | 0.647 | 0.703 | |
| CORE | 0.873 | 0.907 | 0.870 | |
| MathGAP | No Learning | 0.472 | 0.472 | 0.472 |
| GRPO | 0.393 | 0.400 | 0.443 | |
| GEPA | 0.853 | 0.790 | 0.777 | |
| MemRL | 0.747 | 0.713 | 0.833 | |
| CORE | 0.873 | 0.830 | 0.843 | |
| Tower of Hanoi | No Learning | 0.179 | 0.179 | 0.179 |
| GRPO | 0.077 | 0.120 | 0.107 | |
| GEPA | 0.433 | 0.310 | 0.353 | |
| MemRL | 0.517 | 0.393 | 0.727 | |
| CORE | 0.400 | 0.423 | 0.427 | |
| ZebraLogic | No Learning | 0.509 | 0.509 | 0.509 |
| GRPO | 0.523 | 0.533 | 0.520 | |
| GEPA | 0.597 | 0.570 | 0.707 | |
| MemRL | 0.683 | 0.543 | 0.587 | |
| CORE | 0.700 | 0.717 | 0.663 |
上下文效率的评估揭示了 CORE 的另一项显著优势。如图 3 所示,CORE 是所有评估方法中最上下文高效的。平均每个评估问题,CORE 仅添加 0.92k tokens,而 Episodic RAG 添加 33.6k,MemRL 添加 32.7k——分别是 CORE 的 36.6 倍和 35.6 倍。即使是 GEPA 这个元提示优化基线,平均也添加 1.29k tokens,比 CORE 高约 1.4 倍。这表明 CORE 的收益并非来自在评估提示中放入大量检索轨迹,而是将训练经验压缩成一小部分抽象、可重用的洞察。这种高效性在实际应用中至关重要,因为它意味着更低的推理成本和更短的延迟。
对洞察本身的分析进一步揭示了 CORE 的学习机制。在 10 样本设置中,CORE 在 2000 个 rollout 后积累的洞察数量因任务而异:Matchstick Arithmetic 最多(143 个),其次是 ZebraLogic(126 个)、Tower of Hanoi(119 个)和 MathGAP(65 个)。洞察效用分布不均匀,大多数准入洞察具有非负效用(所有任务中超过 91%),但分布形状不同:Matchstick Arithmetic 和 ZebraLogic 近似单峰,而 MathGAP 和 Tower of Hanoi 呈双峰。这表明 CORE 准入了许多 mildly useful 的洞察,而一小部分高效用洞察驱动了最大的收益。通过人工检查高效用洞察,作者发现它们可分为三类:搜索空间结构化(识别广泛约束和启发式)、中间状态跟踪(随推理展开更新数量、分配、移动或方程)、以及验证和验证(检查约束、检测矛盾、强制执行输出要求)。这些模式表明 CORE 存储的是引导未来推理的程序性抽象,而非对先前情节的总结。
消融实验验证了 CORE 两个关键组件的必要性。在 Matchstick Arithmetic 的 10 样本设置中,完整 CORE 达到 0.907 的最终 held-out 准确率。如果仅对最近失败轨迹进行反思(无对比),准确率降至 0.617;如果仅对成功轨迹进行反思(无对比),准确率为 0.830。这证实了对比结构的重要性——最强的洞察来自显式比较失败和成功,而非孤立反思任一轨迹。对于效用感知检索,如果仅使用语义相似性而不使用效用估计,准确率从 0.907 降至 0.780。这表明仅凭相关性是不够的:系统通过跟踪哪些洞察在经验上改善了性能而获益。这些消融结果共同证明了 CORE 的收益依赖于对比洞察生成和效用感知重用两个组件的协同作用。
案例研究
为了更直观地理解 CORE 的工作机制,让我们考虑一个 Matchstick Arithmetic 的具体案例。这类谜题呈现一个由罗马数字和运算符组成的无效算术等式,要求移动一根火柴使其有效。假设模型遇到这样一个问题:"II + II = VI"(2 + 2 = 6,显然不成立)。在初始阶段,没有学习更新时,模型可能尝试各种策略,比如把加号变成减号、或者改变数字,但很可能失败。
当 CORE 检测到失败时,它会触发对比反思。系统从 rollout 记忆中检索一个语义相似的成功轨迹——比如一个先前正确解决的火柴棍问题,或者如果同一问题之前被成功解决过,就使用那个成功轨迹。假设检索到的成功轨迹涉及将等式变为"II + II = IV"(2 + 2 = 4),通过将"VI"的一根火柴移走变成"IV"。CORE 将失败轨迹(尝试改变加号或数字但未成功)与成功轨迹对比,提示模型生成洞察。模型可能生成这样的洞察:"Use chain equality: converting a minus into a second = can create a three-part equality, allowing the equation to be solved when the three terms become identical."(使用链式等式:将减号转换为第二个等号可以创建三部分等式,当三个项相同时即可解决等式。)这个洞察被赋予一个效用值(比如 0.14),表示其相对基线的改进程度。
在准入测试中,CORE 将这个洞察作为唯一上下文洞察应用于原始问题。如果模型现在能正确解决 "II + II = VI"(比如将其变为 "II + II = IV"),该洞察就被准入到 insight 记忆。未来遇到类似问题时,比如 "III + III = VI"(3 + 3 = 6,需要改为 3 + 3 = 6 或 3 + 3 = III),系统会基于语义相似性和这个洞察的效用估计来检索它。随着这个洞察在更多相关问题上被应用,其效用估计不断更新,系统能够更准确地判断何时使用它最有效。
另一个来自 MathGAP 的案例展示了中间状态跟踪类洞察的价值。在涉及转移或拆分的算术文字题中,模型可能生成这样的洞察:"When a clue describes a transfer or split, update the giver's and all receivers' counts immediately, and keep pre- and post-transfer values separate for later use."(当线索描述转移或拆分时,立即更新给予者和所有接收者的数量,并保持转移前后的值分开以备后用。)这个洞察(效用 0.09)教会模型在推理过程中维护一个清晰的中间状态表示,避免因信息遗漏或混淆而导致的错误。这类洞察体现了 CORE 不仅能学习高级策略,还能学习具体的推理技巧。
Tower of Hanoi 的案例则展示了验证和验证类洞察的作用。模型可能学到:"Before finalizing your answer, simulate each move step-by-step, confirming that the move obeys the one-disk, top-disk, and size-order rules, and record the resulting peg states."(在最终确定答案前,逐步模拟每个移动,确认移动遵守单盘、顶盘和大小顺序规则,并记录结果柱状态。)这个洞察(效用 0.11)本质上是一种自我验证机制,要求模型在输出最终答案前进行内部检查,确保每一步都符合问题约束。这类似于人类在解决复杂问题时使用的"元认知监控"策略——在提交答案前回顾和验证推理过程。
这些案例表明,CORE 生成的洞察不是对过去经验的机械总结,而是具有功能性的程序性抽象。它们可以直接指导未来的推理,类似于人类在掌握一项技能后内化的"技巧"或"注意事项"。更重要的是,这些洞察是可解释的——研究人员可以阅读它们,理解模型学到了什么,评估其质量,甚至手动干预或修正。这种透明性在安全性方面具有重要意义,因为我们可以检查模型是否学到了不期望的行为,而不是面对一个不透明的权重更新。
综合价值与局限
CORE 在理论和实践层面都具有重要意义。从理论角度看,它重新框定了从可验证奖励中学习的问题:学习的本质不是参数更新,而是显式知识的发现和选择性应用。这一视角将认知心理学关于人类高效学习的洞见引入了机器学习领域,为理解"样本效率"提供了新的概念工具。CORE 表明,通过改变"存储什么和重用什么",可以显著提高学习效率,而不需要更复杂的模型或更多的数据。这一洞见可能对未来学习算法的设计产生深远影响,特别是在小样本学习和持续学习领域。
从实践角度看,CORE 的潜在应用非常广泛。任何需要语言模型在特定领域快速适应的任务都可能受益于 CORE 的洞察发现机制。例如,在代码生成中,CORE 可以从编译错误和测试失败中学习特定编程语言的常见陷阱和最佳实践;在数学推理中,它可以积累特定问题类型的解题策略;在科学推理中,它可以学习领域特定的约束和验证规则。由于洞察以自然语言形式存储,它们甚至可以被人类专家审阅、编辑和补充,形成人机协作的学习系统。这对于需要高可靠性和可解释性的应用场景(如医疗诊断、法律分析)尤为重要。
CORE 的主要优势在于其多方面的效率:样本效率(5-10 个样本即可学习)、rollout 效率(350 次 rollout 超越基线 4000 次)、上下文效率(评估时添加的上下文比基线少 36 倍)和可解释性(自然语言洞察可人工检查)。这些优势的组合使 CORE 成为实际部署的有力候选。然而,CORE 也存在一些诚实的局限性。
首先,CORE 假设可以访问可验证奖励,这限制了其适用性。许多现实世界的任务(如开放式创意写作、主观评价任务)缺乏明确的验证器,CORE 无法直接应用。虽然可以探索使用模型自身作为验证器或人类反馈作为验证信号,但这会引入新的复杂性和潜在偏差。
其次,CORE 的效用更新采用组级信用分配规则——将相同的观察效用分配给所有检索到的洞察。这在洞察之间存在交互或冗余时可能不够精确。例如,如果两个洞察一起使用时才有效,单独使用都无效,CORE 的信用分配会高估每个洞察的独立效用。更细粒度的信用分配(如使用 Shapley 值或反事实分析)可能解决这个问题,但会增加计算复杂度。
第三,反思和准入测试引入了额外的推理成本。虽然 CORE 在评估时比基线更高效,但训练时的反思步骤需要额外的模型调用。这在某些资源受限场景中可能是一个考虑因素。不过,这种训练时的额外开销可以看作是对评估时效率的投资——一次性学习,永久受益。
最后,实验仅限于推理、规划和问题求解任务,这些任务具有明确的验证标准。对于更开放、更模糊的任务(如常识推理、情感分析),洞察的定义和验证变得更加困难。CORE 在这些领域的适用性仍有待探索。此外,实验使用的是 GPT-OSS-120B 这样的大模型,作者注意到更大的模型尺寸似乎能产生更有用的洞察。这意味着 CORE 在较小模型上的效果可能有限,需要进一步验证。
延伸阅读与思考
CORE 的工作建立在一系列相关研究的基础之上。在从可验证奖励学习方面,参数化方法如 STaR(通过训练理想化推理过程)和 GRPO(通过自动验证器奖励成功尝试)代表了传统强化学习的路线。非参数化方法如 GEPA(基于文本反馈的提示优化)和 MemRL(基于价值感知的片段记忆检索)则探索了不更新权重的学习路径。CORE 的独特之处在于它既冻结了模型(避免了参数更新的不透明性和计算成本),又存储了比完整轨迹更抽象的洞察(避免了上下文膨胀和选择性重用困难)。这与近期关于将轨迹持续整合为文本记忆的研究形成对比,后者发现这种整合有时不稳定,甚至会降低性能——这进一步支持了 CORE 的"准入测试"和"选择性抽象"策略。
从认知科学角度看,CORE 与关于人类记忆系统的理论高度相关。互补学习系统理论(Complementary Learning Systems Theory)提出大脑中海马体负责快速编码具体经验,而新皮层负责从这些经验中缓慢提炼通用知识。CORE 的 rollout 记忆和 insight 记忆正是这一理论的人工智能实现。此外,关于"对比反思"(comparing what worked to what didn't)的认知心理学研究(如 Schank 的动态记忆理论和关于解释性推理的工作)为 CORE 的核心机制提供了理论支撑。这些跨学科的联系表明,人工智能研究可以从认知科学中汲取更多灵感,以解决学习效率这一根本挑战。
一个自然的延伸方向是将 CORE 与 RLVR 风格的参数化训练结合。非参数化反思可以提供经过验证的中间监督信号,用于蒸馏到模型参数中。这种混合方法可能兼具两者的优势:CORE 提供快速、可解释的初始学习,参数化训练提供深度、永久性的能力整合。另一个重要方向是将 CORE 扩展到多步和具身智能体设置,其中失败可能发生在计划、工具调用、子目标或环境交互层面,而非仅仅是最终答案。在这种情况下,洞察可能需要描述不同抽象层次的策略,从低层动作约束到高层计划模式。
多模态扩展也是一个激动人心的方向。通过生成关于视觉和文本轨迹的洞察,模型可以学习连接感知证据和文本推理的可重用约束。例如,在视觉推理任务中,洞察可能描述如何从图像中提取特定类型的空间关系或属性,并将这些观察与文本推理步骤联系起来。这种跨模态洞察可能为构建更健壮的多模态智能体提供新的途径。
持续学习(continual learning)是另一个 CORE 可以大放异彩的领域。由于洞察以紧凑的自然语言形式存储,累积、合并和跨任务选择性地检索洞察比管理庞大的参数更新或轨迹库更可行。挑战在于如何检测任务间的可迁移性、避免负迁移,以及如何在洞察库增长时保持检索效率。这些问题与知识库管理、本体论推理和元学习的研究密切相关。
从个人思考的角度,CORE 最令人惊讶的方面是它用如此简单的机制实现了如此显著的学习效率提升。对比反思和效用感知检索这两个组件在概念上都很直观,但它们的组合产生了超越复杂参数优化方法的效果。这提示了一个更深层的洞见:在许多情况下,"学习什么"(what to learn)比"如何学习"(how to learn)更重要。如果存储和重用的知识形式本身设计得当,学习过程可以变得异常高效。这对我关于智能体记忆系统和自我改进机制的研究具有直接启发:我们应该更多地关注记忆的表示形式和检索机制,而不仅仅是记忆容量或更新速度。
最后,CORE 的可解释性优势不应被低估。在 AI 安全日益受到关注的今天,能够检查、理解和验证模型学到的内容,比面对一个不透明的黑箱更有价值。自然语言洞察提供了一种人类可理解的"学习审计轨迹",使我们能够回答"这个模型知道什么?"和"它是如何学到这些的?"这样的关键问题。这对于构建可信赖的 AI 系统至关重要,也是未来研究不应忽视的方向。
笔记创建时间: 2026-05-28
阅读方式: L2 深度阅读
Topics:
- "reasoning"
- "memory_mechanism"
- "self_evolving_agents"
- "contrastive_reflection"
- "reinforce_learning"
- "cognitive_science"
References: - "stanford_iris_lab"
- "grpo"
- "memgpt"