Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

基本信息


Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

Authors: Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Yunzhong He, Bing Liu, Sean Hendryx (Scale AI)
Venue: arXiv preprint
Year: 2025
Code URL: https://huggingface.co/datasets/anisha2102/RaR-Medicine, https://huggingface.co/datasets/anisha2102/RaR-Science
Pages: 20


1. 研究摘要 (Research Summary)

大型语言模型(Large Language Model, LLM)在数学和代码等可验证领域展现出惊人的推理能力,这很大程度上归功于 Reinforcement Learning with Verifiable Rewards(RLVR)——一种利用自动评分函数或测试用例来提供明确对错信号的强化学习方法。DeepSeek-R1、Tülu3 等工作的成功充分证明,当奖励信号清晰、可编程时,模型能够通过 on-policy 的强化学习自我涌现出复杂的推理链条。然而,当我们将目光投向医疗诊断、科学推理、法律咨询等真实世界的开放领域时,RLVR 的适用性遭遇了根本性的瓶颈:这些任务往往没有唯一的标准答案,正确性的判定依赖于多维度的、 nuanced 的专家判断,而非简单的二元对错。

这正是 Gunjal 等人所面对的核心困境。在医疗场景中,一个回答可能既包含了正确的诊断推理,又在剂量计算上出现细微偏差;既展现了充分的共情,又遗漏了关键的安全警示。传统的 Preference-based RLHF 虽然可以处理这类模糊地带,但它高度依赖 pairwise comparison 数据,不仅采集成本高昂,还容易让奖励模型(Reward Model)过拟合于表面特征——回答长度、格式偏好、甚至标注者的个人偏见。近年来,instance-specific rubrics(实例特定的评分标准)在评估基准中崭露头角,例如 HealthBench 利用医师撰写的细粒度标准来评测模型在真实医疗对话中的表现。但一个关键的问题始终悬而未决:这些 rubrics 能否从"评测工具"转变为"训练信号"?它们能否像数学题的答案一样,为 on-policy 的强化学习提供稳定、结构化、可自动化的奖励?

本文提出的 Rubrics as Rewards(RaR)正是对这一问题的系统性回应。作者们构建了一个完整的框架,将 checklist 式的 rubrics 直接嵌入到 on-policy RL 的训练循环中。其核心洞见在于,rubric 本质上是一种将"什么样的回答是好的"这一主观判断解构为多个可独立验证的子目标的机制。每一个 rubric item 都是一个微型的、人类可解释的 correctness function,它们共同构成了一张"质量检查清单"。当模型生成一个回答后,LLM-as-judge 根据这份清单逐项检查,最终汇聚成一个标量奖励信号,驱动 GRPO(Group Relative Policy Optimization)算法优化策略。

这项工作带来了四项关键贡献。首先,RaR 将 RLVR 的适用范围从可验证领域扩展到了任何可以定义结构化评判标准的领域,在简单二元奖励和粗粒度偏好排序之间开辟了一条中间道路。其次,作者们针对医疗和科学两个高价值领域,利用强 LLM(o3-mini 和 GPT-4o)合成了实例特定的 rubric 数据集并公开发布,为后续研究提供了宝贵资源。第三,实验结果表明,最佳的 RaR 变体在 HealthBench 上相对于主流的 Likert-based LLM-as-judge 基线取得了最高达 31% 的相对提升,在 GPQA-Diamond 上也有 7% 的增益。这些提升不仅体现在 rubric-guided 的评估上,还泛化到了传统的多项选择任务中,说明 rubric 训练所诱导的能力是通用且深层的。第四,作者发现基于 rubric 的奖励能够显著改善较小评判模型(judge model)的对齐效果,缩小它们与大型模型之间的性能差距,这意味着 rubric 结构化的反馈本质上是在为"弱评判者"提供专家级的推理脚手架。

从更宏观的视角来看,RaR 的意义远不止于一个训练技巧的改进。它提出了一种关于"奖励信号设计"的新范式:当正确答案不可得时,我们不必退回到模糊的人类偏好比较,而是可以系统地将专家知识编码为结构化的评判标准。这种方法既保留了 RLVR 的自动化和可扩展性,又继承了人类专家判断的细腻与多维。对于医疗、法律、教育等高风险、高价值的应用场景,RaR 提供了一个既实用又理论上优雅的解决方案,有望推动 LLM 在真实世界复杂推理任务中的可靠部署。


2. 理论框架 (Theoretical Framework)

要深入理解 RaR 的理论根基,我们需要回溯到强化学习在语言模型训练中的两条主线:一是以 RLVR 为代表的程序化奖励路线,二是以 RLHF 为代表的学习化奖励路线。

RLVR 的核心假设是存在某种自动化的、无歧义的 correctness oracle。在 GSM8K 或 MATH 数据集中,这个 oracle 是一个精确匹配函数;在代码生成中,它是测试用例的执行结果。这种设置下的奖励函数可以形式化为一个二元指示函数 r(x,y^){0,1},其中 x 是输入提示,y^ 是模型输出。RLVR 的成功建立在一个关键前提上:correctness 是离散的、可验证的。然而一旦离开数学和代码的象牙塔,这个前提便轰然倒塌。

RLHF 试图通过人类偏好数据来学习一个奖励模型 rϕ(x,y^),用神经网络的连续值来近似人类对回答质量的感知。但这种方法引入了三个深层问题:第一,人类标注成本极高,Bradley-Terry 模型需要大量的 pairwise comparison 才能稳定估计;第二,学习得到的奖励模型往往是一个"黑箱",它可能在 optimizing against the learned reward 的过程中利用人类标注者的系统性偏差(例如,标注者倾向于给更长的回答更高的分数),这就是reward hacking;第三,在专家领域中,普通标注者缺乏足够的 domain knowledge 来做出可靠的偏好判断。

RaR 的理论出发点正是要在这两极之间找到一个"sweet spot"。作者们提出,真实世界中的回答质量虽然无法简化为单一的二元判断,但却可以被分解为多个独立的、可逐项检查的维度。这种分解思想与 Multi-Objective Optimization 和 Process Supervision 有精神上的亲缘关系,但 RaR 的独特之处在于它不要求每个中间步骤都有 ground truth,而是允许每个维度本身就是主观的、由专家定义的。

在形式化层面,作者将每一个输入提示 x 关联到一组 k 个 rubric items {(wj,cj)}j=1k。其中 wjR 表示第 j 个评判标准的权重,而 cj:(x,y^){0,1} 是一个二元 correctness 函数,指示模型的回答是否满足该标准。整个奖励函数通过显式聚合(Explicit Aggregation)计算:

r(x,y^)=j=1kwjcj(x,y^)j=1kwj

这个公式的优美之处在于它的模块化与可解释性。分母对总权重进行归一化,使得不同 prompt 之间(即使它们的 rubric 数量和权重不同)的奖励值仍然具有可比性。分子中的每一项 wjcj(x,y^) 都像是一个独立的"质量开关"——满足标准则贡献相应权重,不满足则为零。虽然实验中 cj 采用二元输出,但公式本身自然兼容连续值评分,为未来的扩展留下了空间。

作者还提出了隐式聚合(Implicit Aggregation)作为互补方案:

rimplicit(x,y^)=fϕ(x,y^,{dj}j=1k)

这里 fϕ 是一个 LLM-based judge,它接收提示、回答以及所有 rubric criteria 的完整文本描述 {dj},然后直接输出一个 holistic 的 Likert 评分(1-10 分)。这种方法将聚合的责任"外包"给了 judge 模型的内部推理过程,免去了人工调权重的麻烦,但代价是牺牲了显式权重所带来的可解释性和确定性。

一个尤为重要的理论洞见是 Remark 1:RLVR 实际上是 rubric-based reward 的一个特例。当 k=1w1=1、且 c1(x,y^) 退化为一个简单的答案匹配函数 match(y,y^) 时,上述显式聚合公式就精确还原了标准 RLVR 的奖励机制:

rRLVR(x,y^)=match(y,y^)

这个观察极具理论价值,因为它将两个看似平行的研究分支统一在一个更一般的框架之下。Rubric-based RL 不是 RLVR 的对立面,而是它的自然推广——从"单一可验证标准"推广到"多维度结构化标准"。这种推广使得 RLVR 的算法基础设施(如 GRPO、PPO)可以在几乎不做修改的情况下应用于全新的领域。

从假设边界来看,RaR 的理论框架隐含着几个关键前提。首先,它假设高质量的 rubric 可以被生成或获得——在医疗和科学领域,作者用强 LLM 配合参考答案作为专家监督的代理来合成 rubric,但这种合成的质量高度依赖于参考 answer 的质量和生成模型的能力。其次,它假设 LLM-as-judge 能够可靠地执行 checklist evaluation——虽然这比要求 judge 给出一个 holistic 的质量分数更容易,但对于非常 subtle 的医学判断,judge 的可靠性仍然是一个开放问题。最后,框架假设 rubric criteria 之间大体上是独立的,这样逐项打分才有意义;如果不同标准之间存在复杂的交互或冲突,简单的加权和可能就力不从心了。


3. 技术架构 (Technical Architecture)

RaR 的技术系统可以看作一个围绕 rubric 生命周期设计的闭环训练架构,分为两个主要阶段:rubric 生成阶段和 on-policy 强化学习阶段。整个系统的数据流始于一个领域相关的 prompt 数据集,终于一个经过 rubric 监督微调的策略模型。

在第一阶段——Rubric Generation 中,系统为每个训练 prompt 合成一套实例特定的评分标准。作者们为有效的 rubric 设定了四个核心设计原则(desiderata),这些原则构成了 rubric 工程的方法论基石。第一,"Grounded in Expert Guidance"(扎根于专家指导),要求 rubric 反映领域专家的知识,捕捉正确答案所必需的事实、推理步骤和结论。在缺乏人类专家直接参与的情况下,作者使用高质量的参考答案作为专家监督的代理(proxy),引导强 LLM(o3-mini 用于科学领域,GPT-4o 用于医疗领域)生成与专家意图对齐的评判标准。第二,"Comprehensive Coverage"(全面覆盖),要求 rubric 横跨回答质量的多个维度,包括事实准确性、逻辑一致性、完整性、风格乃至安全性。特别值得注意的是,作者引入了"Pitfall"(陷阱)类标准,专门识别那些常见但高风险的错误模式。第三,"Criterion Importance"(标准重要性),承认不同维度的质量并非等价的——事实正确性必须压倒风格清晰度。为此,每个 rubric item 被赋予一个分类权重标签(Essential、Important、Optional、Pitfall),在显式聚合中被映射为数值权重。第四,"Self-Contained Evaluation"(自包含评估),要求每个 rubric item 都是独立可操作的,无论是人类标注者还是自动化 judge 都能在无需外部上下文的情况下单独评判。

实践中,对于每个 prompt,LLM 生成 7 到 20 个自包含的 rubric items。每个 item 包含标题、描述性语句(以前缀标明类别,如"Essential Criteria: ...")以及数值权重(1-5)和分类标签。以医疗领域为例,一个关于代谢性酸中毒治疗的 prompt 可能产生如下 rubric:Essential 级别的"正确识别并应用碳酸氢钠计算公式"、Important 级别的"解释为何仅给予部分校正以避免过度校正风险"、Optional 级别的"提及基础缺失值反映严重酸中毒",以及 Pitfall 级别的"避免只提及完整计算量而忽视安全剂量"。这种结构化的分解将一个复杂的医学问答任务转化为了多个可逐项检查的微型目标。

第二阶段——GRPO with Rubric as Rewards——是训练的核心循环。系统采用 Qwen2.5-7B 作为基础策略模型,使用 GRPO 算法进行 on-policy 训练。对于每一个训练 prompt q,当前策略 πθ 以 temperature 1.0 采样生成 k=16 个候选回答,上下文长度限制为 3584 tokens。这些回答随后进入 Rubric Reward Computation 模块:使用 gpt-4o-mini 作为 judge model,根据第一阶段生成的 rubric 对每个回答进行评分。

这里出现了两种互补的奖励计算路径,对应前文所述的显式聚合与隐式聚合。在 RaR-Explicit 路径中,judge 对每个 rubric item 独立进行二元判断,然后按照公式进行加权归一化。作者为分类标签手动分配了数值权重:Essential 为 1.0、Important 为 0.7、Optional 为 0.3、Pitfall 为 0.9。值得注意的是,Pitfall 虽然在公式中以正权重出现,但其逻辑是反向的——满足 Pitfall 描述中的"避免某错误"会获得正向贡献,而若回答触犯了该陷阱,则会扣除奖励。在 RaR-Implicit 路径中,judge 接收完整的 rubric 列表以及提示和回答,直接在 1-10 的 Likert 量表上给出一个 holistic 评分,然后归一化到 [0, 1] 区间。这种方法将复杂的权重调参问题转化为了 judge 模型的推理负担,理论上更灵活,但也更依赖于 judge 的内部一致性。

奖励信号生成后,进入标准的 GRPO 策略更新阶段。GRPO 的核心思想是对于同一 prompt 的多个 rollout 计算相对优势(group advantage),而非依赖一个独立的价值函数(value function)来估计 baseline。这种方法特别适用于奖励信号本身带有噪声或方差较大的场景——恰恰就是 rubric-based 评判的现实情况。所有训练在单节点 8 张 NVIDIA H100 GPU 上完成,batch size 为 96,学习率 5×106,采用 constant schedule 配合 10% 的 linear warmup,共训练 300 步。

整个架构的设计体现了"模块化可解释性"的工程哲学。与端到端的 reward model 不同,RaR 的奖励计算过程是透明且可审计的——研究者可以打开任意一个训练样本,查看它的 rubric 清单,检查 judge 对每一项的判定,并理解最终奖励是如何从逐项判定汇聚而来的。这种透明度在高风险的医疗领域尤为重要,它为模型的行为提供了事后解释的可能性。


4. 实验评估 (Experimental Evaluation)

作者们围绕一个核心科学假设设计了一套系统的实验:在缺乏可验证答案的真实世界推理任务中,结构化的 rubric-based 奖励能否产生比传统的 Likert-based 评判更稳定、更有效的训练信号?实验横跨医疗和科学两个领域,采用多维度评估体系来检验这一假设。

在数据集方面,医疗领域的训练数据 RaR-Medicine 包含约 20,000 个 prompt,来源涵盖 medical-o1-reasoning-SFT、natural_reasoning、SCP-116K 和 GeneralThought-430K 等多个高质量医学推理数据集。科学领域的 RaR-Science 同样规模约 20,000,与 GPQA-Diamond 的类别对齐,覆盖物理、化学、生物等广泛科学推理任务。所有 rubric 均由强 LLM 基于参考答案合成生成。评估则在两个独立设置上进行:医疗模型在 HealthBench(5,000 个临床对话场景,采用医师撰写的细粒度 rubric 评估)上测试;科学模型在 GPQA-Diamond(高难度的多项选择科学问题)上测试。这种跨评估格式的设计尤为巧妙——它检验了 rubric 训练所诱导的能力是否能泛化到与训练时不同的评估范式。

基线设置方面,作者构建了多层次的对比体系。Off-the-shelf 基线包括未经训练的 Qwen2.5-7B 和经指令微调的 Qwen2.5-7B-Instruct,用于定位起点性能。Rubric-free 的强化学习基线包括 Direct-Likert(judge 直接对 prompt-response 对给出 1-10 分)和 Reference-Likert(judge 将回答与参考答案对比后给出 1-10 分)。Rubric-guided 方法则包括三个变体:RaR-Predefined(使用固定通用 rubric,不随 prompt 变化)、RaR-Explicit(实例特定 rubric 加显式加权聚合)和 RaR-Implicit(实例特定 rubric 加隐式 holistic 评分)。

主要结果令人印象深刻。在 HealthBench 的 rubric-based 评估中,RaR-Implicit 取得了整体最高分,相对 Direct-Likert 基线的提升幅度高达 31%。即使是相对更强的 Reference-Likert 基线,RaR-Implicit 也保持着小幅但一致的领先。这一结果直接验证了核心假设:将评判过程分解为结构化的 checklist,确实比直接要求 judge 给出一个模糊的"好/坏"分数更能提供有效的训练信号。

训练方法 HealthBench Overall GPQA-Diamond 均值准确率
Qwen2.5-7B (base) 12.5% 31.7%
Qwen2.5-7B-Instruct 22.7% 31.7%
Direct-Likert 25.5% 35.0%
Reference-Likert 29.7% 36.5%
RaR-Predefined 28.9% 34.8%
RaR-Explicit 31.2% 36.9%
RaR-Implicit 34.8% 37.6%

上表汇总了核心结果。一个特别值得注意的观察是 GPQA-Diamond 上的表现:RaR-Implicit 在该多项选择任务上达到 37.6% 的准确率,不仅超过了所有基线,而且证明了 rubric 训练的效果能够跨越评估格式的边界。这说明模型通过 rubric 监督学到的不仅仅是"如何讨好一个 rubric-based judge",而是深层的事实知识和推理模式。RaR-Predefined 的相对弱势(HealthBench 28.9%,GPQA 34.8%)进一步揭示了 instance-specific rubric 的关键性——固定通用标准无法捕捉 prompt 特定的要求和常见失败模式,导致奖励信号与真实任务需求错位。

在 judge 对齐性方面,作者构建了一个精巧的配对评估集:从 HealthBench 中选取约 3,000 个有专家认可答案的 prompt,每个答案与一个经控制扰动(controlled perturbation)生成的较差版本配对。然后测试不同规模的 LLM judge 在 rubric-guided 和 rubric-free 条件下区分"优选/拒绝"回答的能力。结果显示,rubric guidance 对所有规模的 judge 都有提升,而对较小模型(如 Qwen-7B-Instruct)的提升最为显著——它的配对准确率从 22.0% 跃升至 26.7%,几乎追平了更大的模型。这说明 rubric 的 checklist 结构本质上是在为 judge 提供推理脚手架,弥补小规模模型在 holistic quality judgment 上的能力不足。同时,rubric-based 评分的方差更小(不同规模 judge 的得分集中在 0.250-0.279 区间,而 Likert-only 分散在 0.220-0.254),表明结构化评判带来了更好的一致性。

消融实验进一步挖掘了 rubric 设计的深层机制。在 HealthBench-1k 上的测试表明,仅使用 Essential 级别的 rubric(34.9%)显著低于使用全部层级(37.2%),说明丰富的多维度评判信号对训练有益。有趣的是,去掉分类权重标签(No Categorical Labels,38.8%)或去掉 Pitfall 标准(37.2%)并未如预期般带来大幅性能下降,作者推测这是因为合成 Pitfall 本身极具挑战性——需要预判模型最常犯的错误模式,而这往往需要人类直觉和领域经验,纯 LLM 合成的负面标准可能缺乏足够的特异性和相关性。

关于 rubric 生成模型的消融则揭示了另一个重要规律:在无法使用参考答案的情况下,GPT-4o 生成的 rubric 带来最强的下游性能(34.2%),超过了 o3-mini(32.4%)和开源的 Qwen-72B-Instruct(32.7%)。然而,所有无参考指导的合成 rubric 都明显落后于有参考指导的 rubric(35.9%)。这凸显了专家 grounding 的不可替代性:即使是最强的通用 LLM,在缺乏领域特定引导的情况下,也难以生成足以支撑高质量训练的评判标准。


5. 案例研究 (Case Studies)

为了将 RaR 的工作原理从抽象公式转化为直观理解,让我们深入 walk through 论文中展示的一个具体医疗案例。

Prompt 是一个 50 岁男性患者的代谢性酸中毒治疗问题:患者体重 65kg,pH 7.05,PCO₂ 15 mmHg,HCO₃⁻ 5 mEq/L,基础缺失(base deficit)-40 mEq/L。问题是:在前 4 小时内应该给予多少碳酸氢钠来纠正代谢性酸中毒?

参考回答遵循了标准的临床路径:首先指出基础缺失 -40 mEq/L 表明严重酸碱紊乱;然后应用公式 碳酸氢盐需求量 = 基础缺失 × 体重 × 0.3,计算得 40 × 65 × 0.3 = 780 mEq;最后强调标准实践是给予部分校正,推荐在前 4 小时内给予约 150 mEq 以确保安全。

围绕这个 prompt 生成的 rubric 包含七个 item,每一个都像一道微型质量关卡:

  1. Bicarbonate Calculation(Essential, w=5):回答必须正确识别并应用公式(基础缺失 × 体重 × 0.3)。这是底线——算错了剂量,回答就从根本上失去了临床价值。
  2. Safe Dosing Recommendation(Essential, w=5):回答必须明确推荐在前 4 小时内给予约 150 mEq。这是安全性的底线——医学回答不仅要正确,还要安全。
  3. Partial Correction Justification(Important, w=4):回答应该解释为何仅给予部分校正,以避免快速过度校正带来的并发症。这捕捉了医学推理的深度——知道怎么做还不够,还要知道为什么这么做。
  4. Step-by-Step Calculation(Important, w=3):回答必须展示计算步骤(40 × 65 × 0.3 = 780),然后再提及调整后的安全剂量。这关乎可解释性和教学价值。
  5. Patient Data Accuracy(Important, w=3):回答必须准确整合患者体重 65kg 以及关键的 pH、PCO₂、HCO₃ 值。这是对细节关注度的检验。
  6. Base Deficit Interpretation(Optional, w=2):回答可以提及基础缺失 -40 mEq/L 表明严重代谢性酸中毒需要谨慎治疗。这是加分项,反映了完整度。
  7. Avoid Overcorrection Risk(Pitfall, w=-1):回答不能只给出完整计算量(780 mEq)而不提及过度校正的风险。这是一个"反向陷阱"——触犯了就扣分。

现在想象一个模型生成了两个候选回答。回答 A 正确计算了 780 mEq 并推荐了 150 mEq,但没有解释部分校正的理由。在 RaR-Explicit 框架下,回答 A 会在 Essential 和 Safe Dosing 上拿满分,在 Partial Correction Justification 上得零分,Step-by-Step 可能部分得分。最终奖励是一个明确、可解释的数值。相比之下,在 Direct-Likert 框架下,judge 面对回答 A 时需要在"总体质量"的模糊概念上做出判断——它可能因为计算正确而给 8 分,也可能因为缺少解释而只给 6 分,这种主观性带来了训练信号的噪声。

另一个候选回答 B 给出了完整的 780 mEq 剂量但没有提及安全剂量调整。在 RaR 框架下,这会直接触发 Pitfall 项"Avoid Overcorrection Risk"的惩罚,同时 Safe Dosing 项也无法满足,导致奖励显著下降。这种"结构性惩罚"比 Likert 中的笼统扣分更有针对性——模型通过训练能精确地学习到什么类型的错误是不可接受的,而不是仅仅知道"这个回答不太好"。

这个案例还揭示了 Pitfall 标准的独特价值。医疗领域中的许多错误不是"做错了什么",而是"遗漏了什么关键警示"。传统的正向 rubric(要求包含某些内容)难以捕捉这类遗漏型错误,而 Pitfall 则专门针对模型的"盲区"——那些它因为缺乏领域意识而忽略的安全要点。当然,如消融实验所示,合成高质量的 Pitfall 极具挑战性,因为它要求 rubric 生成者能预判模型在特定 prompt 上的典型失败模式,这往往超出了纯 LLM 合成能力范围。


6. 综合价值与局限 (Synthesis — Value and Limitations)

RaR 的理论贡献在于它为"如何在不可验证领域设计可靠奖励信号"这一根本问题提供了一个概念上清晰、工程上可行的解答。它挑战了 RLHF 社区长期以来的一个隐性假设:当没有自动验证器时,我们只能退回到学习化的人类偏好模型。RaR 证明,存在第三种道路——将专家知识编码为结构化的、模块化的评判标准。这种思路为 RLVR 和 RLHF 之间长期存在的鸿沟架起了桥梁,也为"可解释 AI"与"强化学习"的交叉领域开辟了新的研究方向。

从实用角度看,RaR 的潜在影响是深远的。在医疗健康领域,它可以用于训练临床对话模型,确保回答在诊断准确性、治疗安全性、患者共情等多维度上都达到专业标准。在教育领域,它可以为自动作文批改或开放题评测提供训练信号,使模型不仅给出正确答案,还能以符合教学规范的方式呈现推理过程。在法律、金融咨询等任何需要 nuanced 专家判断的领域,RaR 的框架都可以被适配使用。

这项工作最强有力的方面在于其系统性。作者没有仅仅提出一个想法,而是构建了一个从 rubric 合成到训练再到评估的完整 pipeline,发布了两个领域的数据集,并在一个严格控制的实验环境中与多个强基线进行了对比。特别是在 judge 对齐性方面的深入研究——展示 rubric 如何帮助小模型追上大模型——为 RaR 在实际部署中的成本效益提供了有力论据:你不需要 GPT-4o 级别的 judge 来获得高质量的奖励信号,一个经 rubric 引导的中等规模模型就能胜任。

然而,RaR 的局限性同样不容忽视。首先,rubric 质量是整个系统的天花板。论文清晰地表明,有参考指导的合成 rubric 显著优于无参考指导的 rubric,而人类撰写的 rubric 与高质量合成 rubric 表现相当。这意味着在没有高质量参考答案或人类专家的领域,RaR 的效果会大打折扣。对于全新的、参考资料稀缺的领域,rubric 生成本身就是一个待解决的难题。

其次,rubric 的固定权重分配(RaR-Explicit)虽然提供了可解释性,但也引入了 brittleness。不同维度的重要性可能因应用场景而异,手动调参难以适应所有情况。作者已经指出了未来可以探索学习化或动态权重,但在当前版本中这仍是一个工程折中。

第三,论文的实验范围集中在医疗和科学领域,虽然这两个领域本身足够重要,但 RaR 在对话系统、创意写作、工具使用等更开放、更动态的任务上的表现仍然是未知的。特别是当 rubric 本身需要在多轮交互中动态演化时,当前的一次性生成范式是否还能适用,需要进一步验证。

第四,LLM-as-judge 的可靠性问题并未因 rubric 结构化而完全消除。虽然 checklist 形式比 holistic 评分更容易执行,但对于非常 subtle 的医学判断,即使是 GPT-4o-mini 级别的 judge 也可能犯错。当 judge 本身不可靠时,rubric 带来的信号改善可能只是将系统从一个噪声源转移到了另一个。

最后,训练成本是一个现实考量。每个 prompt 需要生成 16 个 rollout,每个 rollout 又要经过多项 rubric 的逐项评估,这比简单的答案匹配要昂贵得多。虽然论文使用了相对较小的 judge 模型(gpt-4o-mini)来缓解成本,但对于大规模生产训练,rubric evaluation 的计算开销仍然是一个需要优化的因素。


7. 延伸阅读与思考 (Further Reading and Reflection)

RaR 所处的学术生态正在经历一场从"粗粒度偏好"到"细粒度结构化监督"的范式转变。理解这一转变需要把握几个关键的研究脉络。

在 RLVR 的扩展方面,Ma 等人(2025)的 General-Reasoner 将可验证奖励训练扩展到了物理、金融和政策领域,展示了跨域混合训练的潜力。Su 等人(2025)的 Crossing the Reward Bridge 进一步证明单一跨域奖励模型可以监督多个不同任务。在医疗垂直领域,Zhang 等人(2025)的 Med-RLVR 从 3B 基础模型中通过 RL 激发出了医学推理能力。这些工作共同勾勒出一个图景:RLVR 的边界正在不断外推,而 RaR 正好填补了其中"答案不可严格验证"的空白地带。

在 rubric 作为评测工具的传统中,HealthBench(Arora et al., 2025)是最直接的前驱工作,它首次展示了实例特定 rubric 在医疗评测中的威力。Pathak 等人(2025)证明了问题特定 rubric 比通用 checklist 在代码评估中更准确。这些工作为 RaR 提供了评测层面的理论基础——如果 rubric 能更好地评估,为什么不能用它们来更好地训练?

在结构化偏好与对齐方面,近期的并发工作呈现出有趣的趋同现象。Dineen 等人(2025)的 QA-Align 和 Viswanathan 等人(2025)的 Checklists are Better than Reward Models 都探索了 checklist 式标准在偏好调优和对齐中的应用,但主要聚焦于安全、指令遵循等非推理领域。Gallego(2025)的 CPT 使用 rubric 来引导合成偏好数据进行 DPO 训练。RaR 的独特定位在于它将 rubric 直接转化为 on-policy RL 的密集奖励信号,且明确 targeting 专家级推理和真实世界应用域。

在过程监督(Process Supervision)和密集奖励方面,Lightman 等人(2023)的"Let's Verify Step by Step"展示了逐步骤验证对数学推理的巨大帮助。Li 等人(2025)和 Khalifa 等人(2025)分别探索了 MCTS 生成标注和"会思考的过程奖励模型"。RaR 可以被视为过程监督思想在非结构化领域的一种变体——不是验证每个推理步骤的正确性,而是验证最终回答在多个质量维度上的满足度。

展望未来,RaR 开启的研究方向至少包括四个层面。在最直接的层面,动态权重学习——让模型或训练过程自动调整不同 rubric 项的权重——可以同时保留可解释性和适应性。作者已经暗示了 curriculum learning 的可能性:早期训练强调 Essential 项(确保基本正确),后期逐渐引入 Optional 和风格项(提升回答质量)。

在 rubric 生成层面,如何让合成过程更少依赖参考答案是一个关键挑战。可能的方向包括 few-shot 人类专家示范、迭代式 rubric 改进(用训练过程中暴露出的失败模式来更新 rubric)、或者专门的 rubric 生成模型。特别值得注意的是,消融实验显示合成 Pitfall 尤为困难,这呼唤能够预判模型失败模式的对抗式或自举式 rubric 生成方法。

在 judge 模型层面,论文使用的是通用 off-the-shelf LLM,但专门的评判模型(如 Whitehouse 等人 2025 的 J1)或生成式奖励模型(如 Chen 等人 2025 的 RM-R1)可能会提供更可靠的 rubric 执行。一个更深层的开放问题是:能否训练一个专门的"rubric judge"模型,它在 checklist evaluation 任务上远超通用模型,从而进一步降低对超大模型的依赖?

在领域扩展层面,对话系统、多轮交互、工具使用等任务中的 rubric 设计是一个几乎全新的问题。这些任务的"正确答案"不仅在内容上开放,而且在结构上动态演化——一个好的对话回答不仅取决于内容准确性,还取决于时机把握、用户意图理解、关系维护等难以预先枚举的维度。如何为这类任务设计 rubric,以及 rubric 是否需要在对话过程中实时更新,都是令人兴奋的研究前沿。

最令人深思的或许是一个哲学层面的问题:RaR 实际上是在用人类专家的"隐性知识"(tacit knowledge)——那些难以编码为简单规则但又至关重要的判断标准——来构建显式的训练信号。每一次 rubric 合成都像是在尝试将专家的直觉外化为可操作的 checklist。这种外化过程本身就是不完美的——正如论文所示,没有参考指导的合成 rubric 总是略逊一筹。这提示我们,在 AI 对齐和训练的深层挑战中,人类专家的不可替代性可能比我们想象的更加顽固。RaR 不是一个消除人类参与的方案,而是一个更高效地利用人类专家知识的方案——它将专家从繁琐的 pairwise comparison 中解放出来,让他们专注于定义"什么是好的"这一更高层次的问题。在这个意义上,RaR 的真正价值或许不仅在于提升了模型的性能,更在于它重新定义了人机协作在 AI 训练中的角色分工。


笔记创建时间: 2026-04-28
阅读方式: L2 深度阅读

Topics:

Powered by Forestry.md