Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

Authors: Tianle Wang¹, Zhaoyang Wang², Guangchen Lan¹, Xinpeng Wei³, Sipeng Zhang⁴, Guanwen Qiu¹, Abulhair Saparov¹
Affiliations: ¹Purdue University, ²UNC Chapel Hill, ³Georgia Tech, ⁴UC San Diego
Venue: arXiv preprint (arXiv:2605.06638)
Year: 2026
Pages: ~10 (main paper)
PDF Archive: attachment/papers/20260511_rl_long_horizon_reasoning_llm_expressiveness.pdf


1. 研究摘要 (Research Summary)

大规模语言模型(Large Language Model, LLM)的推理能力在近年来取得了显著进展,尤其是在数学和代码等可验证领域,强化学习(Reinforcement Learning, RL)后训练已被证明能够激发模型产生更长的思维链(Chain-of-Thought, CoT)并提升基准测试表现。然而,一个根本性的瓶颈始终存在:当任务需要跨越多个推理步骤、进行长程规划时,即便模型能够独立解决其中的每一个子问题,其整体性能仍可能急剧下降。Rameshkumar 等人(2025)的研究表明,推理模型在图推理任务中一旦超出特定复杂度范围便会遭遇断崖式崩溃;Zhou 等人(2025)的 GSM-Infinite benchmark 也揭示了随着推理长度增加,模型表现呈指数/sigmoid 式衰减。这些观察共同指向一个核心问题——我们尚不清楚 RL 后训练的计算成本如何随推理难度的增长而系统性地变化

之所以缺乏对这一问题的深入理解,根源在于现有训练环境难以同时满足三个关键属性:精确可验证性(exact verifiability)对推理难度的细粒度控制(fine-grained difficulty control),以及支持系统分析的大规模数据可用性(data availability at scale)。数学和代码领域虽然满足可验证性,但高质量问题的收集成本高昂,且对推理深度和难度的控制十分有限;现有的合成任务(如 Knights and Knaves、SAT、G1 等)虽然降低了数据生成成本,却往往将任务复杂度与底层逻辑的表达能力耦合在一起,无法独立分析不同因素对训练 scaling 行为的影响。正是在这一背景下,本文提出了 SCALELOGIC——一个合成逻辑推理框架,它能够独立控制两个难度维度:证明规划深度(proof depth,即推理的"时间跨度"horizon)和底层逻辑的表达能力(logical expressiveness)。

SCALELOGIC 的核心设计思想是将每个实例构造为一个单选多选题:给定一组事实(axioms)和若干候选结论,模型需要识别哪一个结论可以从给定事实中逻辑推导出来。为了验证每个候选结论,模型必须搜索对应的证明树,且由于每个候选结论都经过了精心设计的"破坏"(corruption),模型无法依赖简单的启发式规则或位置捷径来猜测答案。更为关键的是,SCALELOGIC 支持从最简单的仅含蕴涵(implication-only)的逻辑,逐步扩展到包含合取(conjunction,即"且")、否定(negation,即"非")、析取(disjunction,即"或")以及全称量词(universal quantification,即"对所有")的一阶推理。这种层次化的表达能力设计使得研究者可以像调节旋钮一样,精确地改变训练数据的逻辑丰富度,同时保持其他条件不变。

在实验层面,本文发现了一系列令人瞩目的规律。首先,在观测的深度范围内,RL 训练计算量 T(以达到 90% 验证准确率为度量)与推理深度 D 之间遵循严格的幂律关系 TDγ,且拟合优度 R2>0.99。其次,幂律的缩放指数 γ 随逻辑表达能力的增强而单调递增——从仅含蕴涵时的 γ=1.04(近乎线性增长),到包含全称量词时的 γ=2.60(超二次增长)。这意味着在最具表达力的逻辑环境中,将推理深度翻倍所需的训练成本约为简单环境的近三倍。再者,这一幂律关系在不同 RL 算法(DAPO、GRPO、GSPO)下均成立,表明它反映的是任务结构本身的属性,而非特定优化器的特性。最后,也是最具实践意义的发现是:训练数据的逻辑表达能力不仅影响合成任务上的训练动态,更深刻影响着向真实世界任务的迁移能力——在最具表达力的设置下训练,模型在下游数学和通用推理 benchmark 上的平均准确率提升了高达 +10.66 个百分点,而低表达力设置则很快陷入平台期。这一发现有力地表明,"训练什么"(what)与"训练多少"(how much)同等重要,甚至可能更为关键。

本文的贡献可以概括为三个层面。第一,方法论层面,提出了 SCALELOGIC——首个同时满足精确可验证、低成本自动生成、独立控制推理深度和逻辑表达能力的合成推理环境。第二,实证规律层面,首次系统刻画了 RL 长程推理训练的计算成本如何随任务复杂度幂律增长,并揭示了表达能力如何调制这一幂律的指数。第三,实践启示层面,证明了合成逻辑推理训练能够向真实世界数学和科学推理任务产生可迁移的提升,且这种迁移的效率和幅度强烈依赖于训练数据的逻辑丰富度。这些发现为设计更高效的推理后训练 pipeline 提供了全新的视角:与其在单一逻辑片段上堆叠更多训练步数,不如提升训练数据的逻辑表达能力,这可能在相同甚至更低的计算预算下收获更大的模型能力提升。


2. 理论框架 (Theoretical Framework)

2.1 知识脉络与学术传承

本文的工作深深植根于三条并行发展的研究脉络之中。第一条脉络是 LLM 推理中的长程局限性研究。近年来,多个研究团队相继发现,即便是最先进的推理模型,其性能也会随着所需推理步骤的增加而急剧退化。Rameshkumar 等人(2025)观察到推理模型在图推理任务中一旦超出特定复杂度范围便出现"断崖式"失败;SeqBench(Ramezanali 等人, 2025)和 GSM-Infinite(Zhou 等人, 2025)进一步量化了这种退化往往遵循指数/sigmoid 模式。R-Horizon(Lu 等人, 2025)和 h1(Motwani 等人, 2025)则将可独立求解的数学问题组合成多步依赖链,试图通过 RL 训练来缓解长程失败。SCALELOGIC 正是在这一脉络的基础上向前推进:不是仅仅观察失败现象,而是构建一个可控环境来系统性地表征 RL 训练如何随推理结构的规模化而变化,以及这些缩放动态如何塑造下游迁移。

第二条脉络是 LLM 的缩放定律(scaling laws)研究。从 Kaplan 等人(2020)和 Hoffmann 等人(2022)的经典工作开始,研究者发现预训练性能与模型规模、数据量和训练计算量之间存在规整的幂律关系。随后,测试时缩放(test-time scaling)——通过在解码阶段分配额外计算来提升推理质量——成为新的研究前沿(Wei 等人, 2022; Yao 等人, 2023; Muennighoff 等人, 2025)。近期工作进一步将缩放定律分析拓展到 RL 后训练阶段,发现在模型规模、数据量和计算量维度上同样存在规律的缩放行为(Khatri 等人, 2025; Tan 等人, 2025)。然而,这些 RL 缩放研究主要改变的是训练数据的体积,而对单个问题的推理复杂度控制十分有限。SCALELOGIC 的独特价值在于,它通过提供显式且可解释的推理复杂度控制,使得研究者能够在一个更干净、更可控的设置中分析 RL 缩放行为,从而将缩放定律研究中"量"的维度拓展到"质"的维度。

第三条脉络是 基于可验证奖励的 RL 后训练(RL with Verifiable Rewards, RLVR)。以 GRPO(Group Relative Policy Optimization, Shao 等人, 2024)为代表的策略优化方法,以及后续 DAPO(Dynamic Sampling Policy Optimization, Yu 等人, 2025)和 GSPO(Group Sequence Policy Optimization, Zheng 等人, 2025)等变体,已经支撑了大规模 RL 训练和长思维链推理的涌现(Jaech 等人, 2024; Guo 等人, 2025a)。然而,现有工作大多集中于数学和编程领域,这些领域的高质量训练问题数量有限,往往依赖人工整理的解答或测试用例,且对难度的控制粒度较粗(Liu 等人, 2025a)。SCALELOGIC 通过提供显式的复杂度控制、可验证的解答和无限量的低成本数据生成,为面向推理的 RL 后训练提供了一个更为干净和可扩展的框架。

2.2 核心概念深度解析

SCALELOGIC 的理论大厦建立在几个精确定义的核心概念之上,这些概念的相互作用构成了整个框架的基石。

证明树深度(Proof-Tree Depth)与推理跨度(Reasoning Horizon)。在 SCALELOGIC 中,每个可推导的结论都对应一棵证明树,树的根节点是目标结论,叶子节点是作为公理的基本事实,中间节点是通过逻辑规则从子节点推导得到的中间结论。证明树的深度 D 定义为从叶子到根的最长路径上的规则应用次数,它直接对应了完成该推理所需的最少推理步骤数。这一设计将抽象的"长程推理"概念具象化为一个清晰的结构量——深度越大,模型需要串联的推理步骤越多,长程规划的负担越重。这种具象化使得"难度"不再是模糊的主观感受,而是可精确控制和复现的实验参数。

逻辑表达能力(Logical Expressiveness)。这是本文最具理论创新性的概念。作者没有将"难度"简单等同于"深度",而是引入了第二个独立的维度——逻辑的表达能力。他们构建了一个严格的层次结构(hierarchy),每一层都在前一层的基础上增加新的逻辑运算符,且每一层都是前一层的严格超集。

逻辑层级 蕴涵 (→) 合取 (∧) 否定 (¬) 析取 (∨) 全称量词 (∀)
Implication-only
+Conjunction
+Negation
+Disjunction
+Quantification

这一层次结构的设计精妙之处在于,任何难度的增量都可以被干净地归因于新引入的逻辑特征。从仅含蕴涵到加入合取,规则的前提从单一文字变为多个文字的联合,这要求模型在每一步推理中协调多个支持性事实,而非依赖单前提的简单链式推导。加入否定后,规则可以基于某个属性的缺失成立,或推导出某个属性不成立,这要求模型在整个证明过程中持续追踪每个文字的极性(polarity)。加入析取后,单条规则可能产生多个可能的结论,模型必须推理哪些备选结论被排除、哪些收敛到共同目标。最后,全称量词将推理从纯命题层面提升到一阶逻辑层面,模型需要将通用规则实例化到具体实体上,并验证实例化后的前提是否成立。每一次表达能力的跃升,都不仅仅是"更难",而是引入了质上不同的组合结构,这种组合复杂度的差异正是导致缩放指数分化的深层原因。

幂律缩放(Power-Law Scaling)。本文最重要的理论发现是训练计算量 T 与推理深度 D 之间的幂律关系:

T=aDγ

其中 a 是比例常数,γ 是缩放指数。这一关系在双对数坐标下表现为一条直线,γ 即为该直线的斜率。幂律关系之所以重要,是因为它暗示在观测的深度范围内,训练成本随深度的增长是多项式级别的,而非指数级别——后者将意味着长程推理在根本上不可学习。作者通过赤池信息准则(Akaike Information Criterion, AIC)的比较确认,幂律模型在所有五种表达能力设置下均系统性地优于指数模型(ΔAIC+7.1),且拟合优度 R2>0.99。然而,γ 的大小直接决定了多项式增长的"陡峭程度":当 γ=1.04 时,训练成本几乎随深度线性增长,每增加一层深度仅带来近似恒定的边际学习成本;而当 γ=2.60 时,深度每翻一倍,训练成本需要增长约 22.66 倍,组合复杂度的累积效应开始显现。

2.3 数学形式化与算法逻辑

SCALELOGIC 的问题生成遵循**反向构造(backward construction)**范式,这一范式在逻辑程序合成领域已有先例(Opedal 等人, 2025),但本文将其与 RL 训练需求深度融合。算法的核心思想是:从目标结论(根节点)出发,递归地为每个节点生成其支持前提,直到达到目标深度 D 为止。具体而言,生成器初始化一个工作队列 Q,其中包含根节点文字及其深度 0。在每一步,生成器从队列中弹出一个深度为 d 的叶子节点 u;若 dD,则将该文字作为公理加入集合 S;否则,为 u 分配一条规则,该规则的结论包含 u,并根据表达能力标志 Φ{,¬,,} 决定规则的具体形式。所有新引入的前提文字(除已固定的 u 外)都被赋予全新的谓词符号,以确保每个节点在整个实例中有唯一的推导路径——这一设计至关重要,因为它防止了替代性推导路径的存在,从而保证了后续"破坏"操作的精确性。

当启用全称量词时,生成器会以概率 preuse=|T|/(|T|+1) 从可复用的量化规则模板集 T 中实例化一条规则,将其绑定到一个尚未使用过的具体实体上。所有实体名称和谓词字符串都在每个实例中独立随机采样,这一机制消除了模型通过记忆实体身份或利用真实世界语义来走捷径的可能性。

在 RL 训练层面,本文采用 DAPO 作为主要的优化算法。DAPO 建立在 GRPO 目标函数之上,其核心公式为:

LGRPO(θ)=Eq,{oi}i=1Gπθold[1Gi=1G1|oi|t=1|oi|min(ri,t(θ)A^i, clip(ri,t(θ),1ϵ,1+ϵ)A^i)]

在这个公式中,q 表示输入提示(prompt),{oi}i=1G 是从旧策略 πθold 中采样的一组 G 个完整响应。ri,t(θ)=πθ(oi,t|q,oi,<t)πθold(oi,t|q,oi,<t) 是第 i 个响应在第 t 个 token 处的策略比率(policy ratio),它衡量新策略与旧策略在生成该 token 时的概率变化。A^i=Rimean({Rj}j=1G)std({Rj}j=1G) 是组归一化的优势(group-normalized advantage),它通过减去组内奖励的均值并除以标准差,使得奖励信号具有零均值和单位方差,从而稳定训练。DAPO 在此基础上进一步引入了动态采样(dynamic sampling)和更高裁剪上限(clip-higher)策略,以提升训练效率。

奖励设计方面,本文采用了简洁的二元奖励机制:模型必须将最终答案置于 <answer>...</answer> 标签之间,验证器通过精确匹配提取的答案与真实标签来判断对错。这种设计体现了 RLVR 的核心哲学——只验证最终结果的正确性,而不监督中间推理过程,从而赋予模型探索不同推理路径的自由。


3. 技术架构 (Technical Architecture)

SCALELOGIC 的技术系统可以被理解为一个精心编排的三阶段数据生产流水线,其目标是将抽象的逻辑复杂度参数转化为可供 RL 训练的、具有精确难度标签的自然语言推理问题。整个系统的架构设计围绕一个核心原则展开:任何可能被模型利用的表面形式捷径都必须被系统性消除

3.1 系统概览与数据流

第一阶段:候选证明树的反向构造。系统首先采样 B 个文字作为根节点,每个根节点将成为一个候选结论的证明目标。对于每个根节点,生成器从目标深度 D 开始反向递归展开:当前叶子节点若已达到深度 D,则被固化为公理;否则,生成一条以该节点为结论的规则,并为该规则的前提生成新的叶子节点。这些新生成的叶子节点带有全新的谓词符号,确保不会与现有证明树中的任何文字产生意外的逻辑关联。这一过程重复进行,直到所有分支都达到深度 D,最终形成 B 棵结构完整且推导路径唯一的证明树。

第二阶段:多选题实例的组合。系统保留第一棵证明树完整不变,使其根结论保持可推导性,作为唯一的正确答案。对于其余 B1 棵证明树,系统从每棵树的公理集合中均匀随机选取一条公理进行"破坏":在不支持否定的逻辑层级中,直接移除该公理;在支持否定的层级中,则以 0.5 的概率移除公理,或以 0.5 的概率翻转该公理中某个文字的极性。由于每棵证明树的推导路径是唯一的,破坏单条公理就足以切断通往根结论的所有路径,使该候选结论变为不可推导。均匀随机采样防止了模型通过 corrupted axiom 的位置来推断正确答案。之后,所有 B 棵证明树的公理被合并为一个全局公理集合,所有候选结论被汇总为选项列表。

第三阶段:自然语言转换与干扰注入。系统为每个实例独立采样实体名称到具体人名的映射(如 e0 "Alice"),以及谓词 ID 到随机五字母字符串的映射。每个符号化公理通过预定义模板渲染为自然语言:基本事实渲染为陈述句("Alice is abcde"),grounded 规则渲染为 if-then 语句(如"If Alice is abcde, then Alice is bcdef"),全称规则则渲染为量化模板(如"If anyone is abcde, then they are bcdef")。渲染后的事实列表和候选结论列表分别经过随机打乱,以消除顺序线索。最后,系统可选地注入少量干扰规则(distractor rules)——这些规则在形式上符合当前逻辑层级,但至少有一侧仅包含全新的谓词,因此无法与现有证明树产生实质性的逻辑交互,从而增加了局部歧义但不改变唯一的正确答案。

3.2 关键创新与设计 rationale

SCALELOGIC 的技术设计中有几个值得深入理解的创新点。首先是独立性控制轴的设计。现有合成推理环境往往将难度维度纠缠在一起——例如在 SAT 问题中增加变量和子句数量既改变了搜索空间大小,也间接改变了推理深度。SCALELOGIC 通过严格分离 D(深度)和 Φ(表达能力),并固定 B=4(候选数),使得研究者可以像进行对照实验一样,精确地隔离单个变量对训练动态的影响。这种设计使得本文发现的"表达能力调制缩放指数"这一现象具有了因果解释力:它不是多个混淆因素共同作用的结果,而是可以明确归因于新增逻辑运算符引入的组合结构。

其次是唯一证明路径保证。通过为每个新展开的前提分配全新谓词,生成器确保每个节点在整个实例中仅存在一条推导路径。这一机制看似简单,实则至关重要——它使得"破坏单条公理即可使结论不可推导"这一策略成为可能。如果没有唯一路径保证,单条公理的破坏可能被替代推导路径所弥补,那么构造具有精确标签的多选题将变得极其困难,甚至需要调用外部定理证明器来验证每个候选结论的可推导性,这将完全丧失 SCALELOGIC 的低成本优势。

再次是表面捷径的全面封堵。研究团队意识到,合成环境面临的最大风险是模型学到利用表面统计特征而非真正逻辑推理来解题。为此,他们在多个层面实施了防护:实体名称和谓词字符串每实例独立重采样,防止模型通过记忆语义关联来答题;公理和候选结论的顺序随机打乱,防止位置偏见;不可推导候选的破坏方式(移除 vs 翻转极性)随机化,防止极性统计成为线索;所有实例都经过 Z3 SMT 求解器的随机抽样审计,确认标签的逻辑可靠性。这些控制措施共同确保了模型在 SCALELOGIC 上的成功必须建立在真正的逻辑推理能力之上。

3.3 实现细节与训练配置

在 RL 训练的具体实现上,本文选择了 Qwen3-4B 的非思考版本作为基础模型,使用 verl 库在 8×B200 GPU 上进行后训练。主要超参数包括:生成批次大小 384 个提示,训练批次大小 256 个提示,每个提示采样 8 个响应,最大响应长度 8192 个 token,裁剪比率范围 (0.20,0.28),温度 1.0,AdamW 优化器,学习率 1×106,无 KL 散度惩罚。下游评估使用温度 0.7、top-p 0.8、top-k 20,最大响应长度同样为 8192 token,采用 Avg@8(8 次独立采样的平均准确率)作为主要评估指标。

关于逻辑表达能力层级的技术实现,每一层的增量都具有明确的计算含义。在仅含蕴涵的层级中,推理等价于在有向图中寻找路径,每条规则只有一个前提和一个结论。加入合取后,规则的前提变为文字的合取式,推理等价于在有向超图(hypergraph)中寻找路径,每条超边可以有多个源节点,模型必须在每个推理步骤中确认所有前提同时满足。加入否定后,每个文字都有了明确的极性对立面,模型不仅需要追踪哪些谓词被建立,还需要追踪其是正面还是反面。加入析取后,规则的结论变为文字的析取式,这产生了证明树到证明超图的扩展——一个节点可以拥有多个"父节点",导致单个规则的应用并不确立任何具体结论,而只是确立一组可能性的析取,模型必须进一步推理哪些分支被排除、哪些收敛。最后,全称量词引入了实体间的泛化与实例化,模型必须将通用模板应用到具体语境中,并在多实体设置下处理谓词和规则的复用,这创造了需要消歧的组合重叠结构。


4. 实验评估 (Experimental Evaluation)

本文的实验设计围绕五个研究问题(Research Question, RQ)系统展开,每个问题都针对一个特定的假设或现象进行验证,整体构成了从基础缩放规律到实践迁移效应的完整证据链。

4.1 实验设计与评测体系

RQ1:缩放与复杂度——RL 训练成本如何随推理深度和逻辑表达能力缩放?这是本文最核心的研究问题。为了回答它,作者在五种表达能力层级下,分别训练模型于多个深度值(D{4,6,8,10,12,14,16,20,24,28,32,48,64,96},具体取值因层级而异),记录达到 90% 验证准确率所需的 RL 训练步数 T

RQ2:下游迁移——合成推理训练能否提升真实世界 benchmark 的表现?表达能力如何影响迁移效果?作者在八种下游 benchmark 上评估训练后模型,包括数学竞赛类(AIME 2024/2025、AMC 2023、MATH-500、Minerva)、科学类(OlympiadBench 文本子集、GPQA-Diamond)以及综合类(MMLU-Pro STEM 子集)。

RQ3:训练分布——训练数据的难度分布如何影响缩放效率?作者在 +Conjunction 设置下比较了三种分布策略:均匀采样(uniform,从深度 1D 均匀采样)、课程学习(curriculum,逐步增加最大深度)和仅困难样本(difficult-only,仅用深度 D 的实例)。

RQ4:跨算法鲁棒性——观察到的缩放行为是 DAPO 特有的,还是更广泛的 RL 现象?作者在 +Conjunction 设置下复现了 GRPO 和 GSPO 的缩放实验。

RQ5:分布外泛化——在特定深度训练的模型能否泛化到更深(未见过)的深度?作者在 +Quantification 设置下,用训练深度 Dtrain{4,6,8,10,12,14} 的模型评估了更宽的测试深度范围。

4.2 核心结果:幂律缩放与表达能力调制

实验结果最引人注目的发现是,在所有五种表达能力层级下,训练计算量 T 与推理深度 D 之间都呈现出高度精确的幂律关系。下表总结了主要拟合结果:

逻辑层级 缩放指数 γ±SE R2 指数增长系数 b±SE(对比) R2(指数) ΔAIC
Implication-only 1.04±0.03 0.997 0.022±0.003 0.916 +21.0
+Conjunction 1.72±0.08 0.991 0.106±0.009 0.972 +7.1
+Negation 1.81±0.05 0.997 0.112±0.008 0.978 +12.7
+Disjunction 2.11±0.09 0.993 0.174±0.024 0.929 +14.1
+Quantification 2.60±0.06 0.998 0.318±0.031 0.964 +17.6

表中数据清晰地展示了三个层次的规律。第一,幂律模型在所有设置下均显著优于指数模型,ΔAIC 均为正值且数值可观,这表明在观测的深度范围内,训练成本随深度的增长确实是多项式级别的。第二,所有拟合的 R2 都超过 0.99,说明幂律关系对数据的描述精度极高。第三,也是最核心的发现,缩放指数 γ1.04 单调递增到 2.60,形成了近乎完美的单调增长曲线。这一单调性具有深刻的理论含义:它表明每种新增的逻辑运算符都在以一种可量化的方式增加学习的组合复杂度。

对指数值的进一步解读揭示了几个有趣的细节。Implication-only 层级接近线性的指数(γ=1.04)暗示,当逻辑结构足够简单时,每增加一个深度单位仅带来近似恒定的边际学习成本——模型主要学习"再多链一步"。+Conjunction(γ=1.72)和 +Negation(γ=1.81)的指数较为接近,且标准误范围部分重叠,这与理论预期一致:否定并未引入额外的组合结构,而是主要要求模型追踪文字的极性信息。此外,本文的构造中不包含反证法(proof by contradiction)等涉及否定的复杂推理规则,这也限制了否定对复杂度的提升幅度。相比之下,+Disjunction(γ=2.11)和 +Quantification(γ=2.60)的显著跃升则反映了析取带来的分支推理歧义,以及量词引入的实体实例化和模板复用所带来的组合爆炸。

4.3 下游迁移:训练"内容"的重要性

下游迁移实验的结果同样令人深思。在固定深度 D=12 的控制条件下,随着训练数据逻辑表达能力的提升,八种 benchmark 的平均准确率增益呈现单调递增趋势:从 Implication-only 的 +0.49 个百分点,到 +Quantification 的 +8.10 个百分点。在固定计算预算(约 100 训练步)的控制条件下,同样的单调趋势依然成立,增益从 +2.32 上升到 +6.33 个百分点。更引人注目的是训练动态的差异:低表达力设置(Implication-only 和 +Conjunction)的下游性能很快陷入约 52% 的平台期,而 +Quantification 设置则持续提升,最终在 414 步达到 60.05%,较基线提升 +10.66 个百分点。这一对比有力地证明了:训练数据的逻辑表达能力不仅决定了模型能学到多少,还决定了它学到的能力能否向更广泛的推理任务迁移。在简单逻辑中训练,模型可能学到的是狭窄的领域特定模式;而在丰富逻辑中训练,模型则可能习得更具泛化性的推理元能力——如分支枚举、条件验证、假设追踪等——这些能力在面对真实世界的数学和科学问题时具有更广泛的适用性。

4.4 消融分析与鲁棒性验证

作者进行了一系列严格的消融和鲁棒性检验来确保结论的可靠性。在候选数 B 的消融实验中,固定深度 D=8 和 +Quantification 设置,发现训练成本随 B 同样遵循幂律(γB=1.41),但下游增益在 B=4 后迅速饱和(从 B=2B=4 提升 +3.2 pp,从 B=4B=6 仅提升 +0.6 pp),这解释了为何主实验固定 B=4。在多实体消融中,作者验证了 +Quantification 层级的高指数并非由多实体维度单独驱动——在 +Disjunction 基础上仅增加实体数量而不启用量词,训练步数差异在 ±2 步以内且无任何系统性趋势。

鲁棒性方面,作者将准确率阈值从 90% 放松到 85%,所有五种设置的幂律拟合依然保持 R2>0.99,指数相对顺序完全保留(1.072.73)。使用四种替代计算度量(生成 token 总数、保留批次 token 数、训练 FLOPs、GPU 小时)重新拟合,幂律形式在所有情况下均成立(R2>0.98),且 Implication-only < +Conjunction +Negation < +Disjunction < +Quantification 的排序完全保持。在 Qwen3-8B 上的跨规模复现实验中,同样的单调递增趋势被观察到(γ0.992.53),且绝对值系统性地低于 4B 模型,符合"更大模型学习效率更高"的直觉。这些多维度的验证共同构成了一条坚固的实证证据链。


5. 案例研究 (Case Studies)

虽然 SCALELOGIC 的核心贡献在于系统性的量化规律,但具体的推理实例能够帮助我们更直观地理解不同逻辑层级所要求的认知操作,以及 RL 训练如何切实改变了模型的推理行为。

5.1 合成任务实例解析

考虑一个 +Quantification 层级的自然语言实例。给定以下事实:"Alice has fur. Alice is a vertebrate. If anyone has fur and is a vertebrate, then they are a mammal. If anyone is a mammal, then they are not a bird." 候选结论包括:"(A) Alice is not a bird. (B) Alice is cold-blooded. (C) ..." 在这个例子中,模型需要执行多步推理:首先识别"Alice has fur"和"Alice is a vertebrate"两个事实,然后应用全称量词规则将它们与"mammal"关联,再应用第二条全称规则从"mammal"推导出"not a bird"。这要求模型不仅能够链式推理,还需要在实例化全称规则时正确识别当前语境中的实体(Alice),并验证量化前提的满足条件。如果缺少合取能力,规则"If anyone has fur and is a vertebrate..."将无法表达;如果缺少否定能力,结论"not a bird"无法被推导;如果缺少全称量词,每条规则都必须针对特定实体重复书写,模型无需进行泛化和实例化操作。因此,这个看似简单的例子实际上凝聚了多个逻辑层次所需的推理要素。

在更复杂的 +Disjunction 实例中,模型可能面对如下规则:"If Alice is a pet, then Alice is a cat or a dog." 此时,从"pet(Alice)"出发,模型并不能直接确立"cat(Alice)",而只能确立"cat(Alice) dog(Alice)"。要继续推进证明,模型必须引入额外信息来排除其中一个分支(例如"Alice is not a dog"),或者发现两个分支最终收敛到同一结论(例如同时存在"cat(Alice) mammal(Alice)"和"dog(Alice) mammal(Alice)")。这种推理模式与简单的单路径链式推导存在质的不同,它要求模型在每一步都维护一组可能的推论,并持续追踪各分支的状态——这正是人类在进行分支推理或分类讨论时的认知过程。

5.2 下游任务中的行为转变

下游任务中最具启发性的案例来自 MATH-500 #80 的定性对比。该问题要求找出区间 [500,500] 中有多少个整数 k 使得方程 log(kx)=2log(x+2) 恰有一个实数解。基线模型(未经 RL 训练的 Qwen3-4B)和在 SCALELOGIC 训练后的模型展现了截然不同的推理策略。

基线模型将方程化简为 x2+(4k)x+4=0,立即令判别式 Δ=0,解得 k{0,8},在排除 k=0(对数无定义)后得出答案 2。这一推理虽然简洁,却是错误的——它忽略了判别式大于零时,二次方程有两个实根,但只有一个落在对数定义域内的情况同样满足"恰有一个实数解"的条件。基线模型在这里犯了典型的"过早收敛"错误:一旦发现一个看似充分的条件,便停止了更全面的分支探索。

相比之下,经 +Quantification 层级训练后的模型展现了系统性的分支枚举策略。它首先同样化简方程并考虑 Δ=0 的情况,得到 k=8 有效。但随后它主动追问"是否还有其他可能",识别出第二种情形——判别式大于零但仅有一根在定义域内。它将此情形进一步按 k>0k<0 分类讨论,利用韦达定理分析根的符号特征,结合抛物线开口方向和 f(2) 的取值,最终证明对于所有负整数 k,条件均成立。因此有效的 k 的集合是 {500,499,,1}{8},共 500+1=501 个。这一推理痕迹揭示了一个深刻的变化:合成逻辑训练似乎赋予了模型一种元认知习惯——不满足于显而易见的分支,主动搜索隐藏情形,对每种可能性施加明确的约束验证,最后综合所有分支得出完备结论。这种策略性的转变,远比单个问题的正确率提升更具价值,因为它代表了一种可迁移的推理范式的内化。


6. 综合价值与局限 (Synthesis — Value and Limitations)

6.1 理论意义与实践影响

从理论层面看,本文最重要的贡献在于将"任务结构"系统地引入 RL 缩放定律的研究范式。此前的缩放研究主要关注模型规模 N、数据量 D 和训练计算量 C 三者之间的幂律关系,将训练实例视为相对同质的样本。SCALELOGIC 通过独立操控逻辑表达能力这一"任务质料"变量,揭示了训练数据的结构属性如何调制学习成本的增长速率。这不仅丰富了我们对 RL 缩放行为的理解,也为未来建立更完整的"任务复杂度—学习成本"理论提供了实证基础和可控实验平台。

从实践层面看,本文的发现对推理后训练 pipeline 的设计具有直接的指导意义。当前许多面向推理的 RL 训练项目倾向于在单一任务类型(如数学或代码)上投入大量计算资源。本文的结果暗示,这种策略可能存在效率瓶颈——如果训练数据的逻辑结构过于简单,模型的能力提升将很快饱和,且向其他领域的迁移能力有限。相反,通过精心设计具有丰富逻辑表达能力的合成训练环境(或从真实任务中筛选逻辑结构更复杂的子集),可能在相同的计算预算下获得更大的能力提升和更广的迁移效果。课程学习策略的验证进一步表明,合理的训练分布设计(从简单到复杂的渐进式暴露)能够显著改善缩放效率,这对于计算资源受限的研究团队尤其具有参考价值。

6.2 优势与局限的坦诚审视

本文在方法论上的优势十分突出。SCALELOGIC 的设计体现了实验科学"控制变量"思想的极致应用:通过独立操控深度和表达能力两个轴,作者得以在单一实验框架内分离不同因素对训练动态的贡献。丰富的鲁棒性检验(替代计算度量、不同准确率阈值、跨模型规模复现、跨算法验证、Z3 逻辑审计)共同支撑了结论的可靠性。此外,将合成环境训练与真实世界 benchmark 迁移相结合的实验设计,有效回应了"合成任务是否有用"这一常见质疑。

然而,本文也存在若干值得正视的局限。首先,主要实验集中于 Qwen3-4B 模型上,虽然作者在 Qwen3-8B 上做了部分复现并观察到一致的趋势,但更大规模(如数十亿至数百亿参数)模型上的行为是否遵循同样的规律仍有待验证。其次,由于计算限制,观测的深度范围有限——最深的 Implication-only 训练达到 D=96,最深的 +Quantification 训练仅到 D=14。虽然在此范围内幂律拟合极其精确,但这并不能保证在更大深度上幂律关系依然成立;实际上,作者的 OOD 泛化实验已经显示,当测试深度约为训练深度的 3 倍时,模型性能会跌落至随机水平,暗示可能存在某种尚未被充分探索的相变边界。第三,本文的分析是经验性的而非理论性的:作者观察到表达能力与缩放指数之间的单调关系,但并未从数学上证明为何特定的逻辑运算符会导致特定的指数增长。这种"知其然而未完全知其所以然"的状态,既是本文的局限,也是未来研究的重要方向。最后,课程学习虽然展示了显著的效果,但具体的课程设计(初始深度、增量步长、切换阈值)仍依赖启发式选择,更系统化的课程优化策略有待开发。

6.3 与领域趋势的关联

本文的工作恰处 LLM 推理研究的关键转折点。一方面,以 DeepSeek-R1 和 OpenAI o 系列为代表的推理模型展示了 RL 后训练的巨大潜力;另一方面,社区日益认识到现有训练范式在推理长度和复杂度上的瓶颈。SCALELOGIC 提供了一条可能的突围路径:不是继续在已有的数学/代码数据上堆叠更多计算,而是通过设计结构更丰富、逻辑更复杂的训练任务,从根本上拓展模型能够学习的推理模式空间。这与"合成数据革命"的 broader 趋势相契合——当真实世界的高质量数据接近枯竭时,可控的合成环境将成为推动模型能力持续进步的重要引擎。


7. 延伸阅读与思考 (Further Reading and Reflection)

7.1 奠基性工作与直接延伸

理解本文需要回溯到几个关键的前期工作。在 RLVR 方法论层面,GRPO(Shao 等人, 2024)通过组内相对优势估计降低了价值函数的训练成本,为大规模 RL 推理训练铺平了道路;DAPO(Yu 等人, 2025)在此基础上引入动态采样和动态裁剪,进一步提升了样本效率。在合成数据层面,Knights and Knaves(Xie 等人, 2025)探索了规则-based RL 在经典逻辑谜题上的应用;SAT(Liu 等人, 2025a)和 G1(Guo 等人, 2025b)分别将 SAT 求解和图推理作为 RL 训练任务,但它们的问题往往呈 NP-hard 的最坏情况搜索问题,且对表达能力的控制有限。SCALELOGIC 可以被视为对这些工作的综合与超越:它继承了 RLVR 的训练范式,吸收了合成数据低成本生成的优势,同时通过引入表达能力控制轴和多项式可解的问题结构(每个实例的验证在线性时间内完成),实现了前所未有的实验可控性。

7.2 替代路径与哲学差异

对于"如何提升 LLM 长程推理能力"这一宏大目标,当前存在几条不同的技术路线。一条是测试时缩放路线,通过增加解码阶段的计算(如思维树、多数投票、过程奖励模型引导搜索)来提升单次推理的质量,其代表包括 Tree of Thoughts(Yao 等人, 2023)和 s1(Muennighoff 等人, 2025)。另一条是自进化路线,让模型通过自我对弈或自我验证来生成和筛选训练数据,如 Absolute Zero(Zhao 等人, 2025)和 R-Zero(Huang 等人, 2025)。SCALELOGIC 代表的是第三条路线——结构化合成环境路线,它强调通过人为设计的可控环境来系统研究学习规律,并从中提取可迁移的推理能力。这三条路线并非互斥:未来的最优系统很可能是三者的融合——利用结构化环境进行高效的预训练或课程学习,结合测试时计算进行推理验证,并通过自进化机制持续扩展环境的覆盖范围。

7.3 未来方向与开放问题

本文打开了几条充满希望的研究路径。第一,更大规模的外推验证:在 70B 乃至更大规模的模型上复现缩放实验,检验幂律指数是否随模型规模系统性地下降,以及大模型是否能够突破 OOD 泛化 3 倍深度边界。第二,更丰富逻辑片段的探索:当前研究覆盖了五种核心逻辑运算符,但更复杂的结构——如等词(equality)、高阶推理、非单调推理(non-monotonic reasoning,允许在获得新信息时撤销旧结论)、以及更真实的实体关系网络——可能揭示新的缩放模式或相变行为。第三,理论解释的建立:为何蕴涵对应线性缩放,而全称量词对应超二次缩放?能否从计算学习理论或信息论的角度,为不同逻辑结构的缩放指数提供解析推导?这将是连接本文经验发现与深层理论理解的关键桥梁。第四,课程学习的系统化:当前课程策略依赖启发式阈值,能否基于证明复杂度或学习进度的实时反馈,设计自适应的、理论上有保证的课程算法?

7.4 个人反思

阅读本文后,最令我深思的是关于"学什么"与"学多少"之间的张力。在 LLM 训练的日常话语中,我们习惯于讨论"需要多少 token""需要多少 GPU 小时""需要多大的学习率"——这些都是关于"量"的优化。SCALELOGIC 提醒我们:"质"的维度同样值得,甚至更值得被精细地工程化。一个模型在简单蕴涵逻辑上训练一万步,可能不如在包含量词和析取的丰富逻辑上训练一千步所获得的泛化能力提升更大。这一洞察具有超越合成环境的普遍性:在筛选数学竞赛题、设计代码训练集、甚至构建多模态推理数据时,我们都应该问自己——这些训练样本在逻辑结构或认知操作上是否足够丰富和多样?它们的"表达能力"是否足以支撑模型学习到可迁移的元推理技能?

另一个令人回味的观察是幂律本身所暗示的乐观与谨慎。幂律关系(而非指数关系)意味着在观测范围内,长程推理的学习成本是可控的、多项式级别的——这是一个乐观的信号。但幂律指数的陡峭增长(从 1.042.60)又提醒我们,一旦任务的逻辑结构变得复杂,训练成本的攀升将极为迅速。更深层的问题在于,我们尚不清楚这些幂律在多大深度范围内保持成立。OOD 实验中 3 倍深度处的性能崩塌暗示,可能存在某种尚未被触及的"推理墙"——一个模型即使在其训练分布上表现完美,也无法超越的复杂度边界。如何理解和突破这堵墙,或许是 LLM 推理研究中最深刻的挑战之一。


结语: SCALELOGIC 不仅是一个合成数据生成工具,更是一个概念性的研究平台——它证明了通过精心的环境设计,我们能够将 LLM 推理训练中原本混沌的、多因素纠缠的复杂现象,还原为可度量、可复现、可解释的规整规律。这一方法论本身,或许比具体的幂律指数数值更具持久的科学价值。

Topics:

Powered by Forestry.md