Vector Policy Optimization: Training for Diversity Improves Test-Time Search

Title: Vector Policy Optimization: Training for Diversity Improves Test-Time Search
Authors: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal
Institutions: MIT, Improbable AI Lab, MIT-IBM Computing Research Lab, Sakana AI
Venue: arXiv preprint
Year: 2026
Pages: ~10 (main text) + extensive appendix


第一节:研究摘要

当代大语言模型(Large Language Model, LLM)的训练范式正面临一个深刻的张力:后训练阶段(post-training)的强化学习(Reinforcement Learning, RL)优化目标,与模型在实际部署中所需的能力之间,存在根本性的错配。传统上,RL后训练通过优化一个预先设定的标量奖励函数(scalar reward),驱使策略向单一的最优响应收敛。这种优化在单响应评估场景下是合理的——如果模型每次只输出一个答案,且评估标准固定不变,那么直接针对该标准训练自然是最优选择。然而,现实中的应用图景已然不同:现代AI系统越来越多地将语言模型嵌入更宏大的推理管线之中,借助测试时搜索(test-time search)机制——从简单的拒绝采样(rejection sampling)与验证器筛选,到复杂的演化算法如AlphaEvolve——在大量候选响应中遴选出最优解。在这种"搜索增强"的范式下,模型的价值不再体现在单一响应的优劣,而在于其能否持续产出丰富、多元且各具特色的高质量候选解,供下游搜索模块从中淘洗。遗憾的是,以GRPO(Group Relative Policy Optimization, 群组相对策略优化)为代表的策略梯度方法天然倾向于压缩输出分布的熵,使策略坍缩到少数高概率模式上,导致额外的采样变得冗余——这些近重复的候选几乎无法为搜索带来任何边际增益。

本文提出的Vector Policy Optimization(向量策略优化,简称VPO)正是为破解这一困局而生。作者团队的核心洞察在于:许多实际任务中的奖励信号并非单一的标量,而是天然可分解为多个分量构成的向量(vector-valued reward)。例如,代码生成中的逐测试用例正确性、多轮对话中针对不同用户画像的偏好评分、多跳推理中每步子问题的成功与否,都可以视为奖励向量的不同维度。传统的做法是将这些分量通过固定权重加权求和,折叠为一个标量后再进行优化,这无异于在奖励的单纯形(simplex)上选定一个点,然后驱使所有策略资源向该点汇聚。VPO反其道而行之:它不再固定权重,而是从Dirichlet分布中随机采样不同的权重向量,让策略学会在单次前向传播中生成一组覆盖奖励帕累托前沿(Pareto frontier)的候选解集合。每个候选在不同权重标量化下各有所长,从而确保整个候选池在奖励空间中保持广泛的覆盖度。这一思路的优雅之处在于,它并非在原有标量优化目标上附加一个多样性正则项——那种做法终究是与收敛趋势对抗的——而是直接将"覆盖单纯形的能力"内嵌为优化目标本身,使多样性成为训练的自然均衡态而非勉强维持的产物。

VPO的技术贡献可概括为三个相互交织的层面。其一,作者明确论证了在存在测试时搜索的AI系统中,训练与 exploitation(利用)应当解耦:训练阶段专司探索(exploration),致力于生成多样化的高能力候选池;搜索阶段则负责利用,从池中拣选最优解。这种分工颠覆了传统RL将探索与利用混为一谈的做法。其二,作者展示了奖励的向量结构如何为多目标优化提供天然的多样性轴,通过训练策略覆盖帕累托前沿而非坍缩到单点,从而在搜索预算增大时持续释放价值。其三,VPO的具体实现巧妙地结合了两个机制——单次自回归 rollout 中的多答案生成(multi-answer generation)与随机奖励标量化(stochastic reward scalarization)——形成一种"集层级"(set-level)的优化目标,可直接嵌入现有RL框架作为GRPO优势估计器(advantage estimator)的替代。

实验结果有力地佐证了上述主张。在横跨多跳问答(MuSiQue)、逻辑链推理(EUREQA)、网格导航(Maze)与工具调用(ToolRL)的四个基准测试中,VPO在测试时搜索指标best@k上均匹配或超越了最强的标量RL基线,且随着候选预算k的增加,优势愈发明显。更具说服力的是LiveCodeBench案例研究:在与标量GRPO使用相同计算资源、从相同初始化出发的对照实验中,VPO不仅在best@k上全面占优,更在OpenEvolve演化搜索循环中解锁了GRPO完全无法求解的难题——在200轮迭代中持续发现新解,而GRPO早已陷入平台期。这些发现指向一个令人深思的结论:当测试时搜索成为标配,优化多样性或许应当取代单一标量最大化,成为RL后训练的默认目标。

第二节:理论框架

要真正理解VPO的理论根基,需要将其置于两条思想脉络的交汇之处:一是强化学习中探索与利用的长期博弈,二是多目标优化中帕累托最优的经典范式。自Sutton与Barto奠定RL基础以来,探索与利用的权衡(exploration-exploitation trade-off)始终是这一领域的核心议题。在经典RL中,智能体必须在尝试新策略与坚持已知高回报策略之间做出抉择;一系列内在动机(intrinsic motivation)与计数式探索方法试图为智能体维持行为多样性,以防止过早陷入局部最优。进入大模型时代,这一张力非但没有缓解,反而因模型规模与部署场景的复杂化而愈发尖锐。Setlur等人提出的e^3框架、Chen等人关于pass@k训练的研究,以及Hong等人关于好奇心驱动红队测试(curiosity-driven red-teaming)的工作,都在从不同角度叩问同一个问题:如何使基础模型在RL后训练之后仍保有多样的行为能力?

然而,上述工作大多仍将探索与利用视为需要在同一训练阶段内调和的双重目标。本文作者提出了一种结构性的解耦思路:既然现代AI系统普遍在推理时部署搜索机制来处理利用问题,那么训练阶段就应当"放手"对单一最优解的追求,转而专注于为搜索提供丰富多样的候选池。这一视角的转换具有方法论上的深刻含义——它重新定义了"好的策略"的标准:不再是在固定评估指标下生成最佳单响应的策略,而是能在不同奖励维度上各自产出 competent(胜任的) specialists(专家)的策略集合。这与演化计算中 lexicase selection(词典式选择)的精神遥相呼应:后者通过在不同目标子集上轮流筛选,保留那些在特定目标组合下表现优异的个体,避免全体种群向单一综合评分的最高点收敛。同样,多目标RL中的帕累托最优概念也为VPO提供了概念工具——Roijers等人关于多目标序列决策的综述系统阐述了如何在冲突目标间寻找最优权衡集合,而Hayes等人的实践指南则展示了这些理论在深度RL中的落地方式。

VPO的核心概念体系围绕着"奖励多样性"(reward diversity)展开。作者将这一性质形式化地定义为:一个候选池具有奖励多样性,当且仅当其中包含的解各自在不同的奖励分量权重标量化下达到最优。设输入提示为x,策略πθ(·|x)生成响应y,而奖励函数r(x,y)=[r1(x,y),...,rd(x,y)]d可分解为d个分量。任意权重向量wΔd1(即d维单纯形,满足wi0iwi=1)诱导出一个标量目标wr(x,y)。标准后训练固定一个权重w并最大化期望标量奖励:

maxθEyπθ(|x)[wr(x,y)]

在单响应评估下,这一目标是合理的。但一旦引入搜索,情况就发生了质变。搜索过程考察的是候选集合而非个体,一个在多个权重区域都有优秀代表的候选池,为搜索提供了远比单一最优模式更大的发现空间。标量训练的问题在于,它会在训练早期就压制那些在当前w下得分不高、但在其他权重组合下潜力巨大的替代策略——这些策略可能包含部分正确的推理模式、问题分解方式或求解思路,经过搜索的组合与提炼后反而能产生更高的最终得分。VPO通过在整个单纯形上均匀采样w来对抗这种过早收敛,使得每个候选只要在某个权重区域内有优势,就能在相应的训练批次中获得正向梯度信号。

这一机制与"结构化探索"(structured exploration)的概念紧密相连。不同于在参数空间或动作空间添加噪声的无差别探索,VPO的探索是有结构的:它沿着奖励向量的自然维度展开,确保探索出的多样性恰好是下游搜索所需要的——即不同奖励分量间的真实权衡(trade-off)。这种探索不会盲目生成语义上花哨但搜索价值低下的变体,而是系统性地填充奖励空间中的帕累托前沿。从动力学角度理解,VPO创造了一种"多稳态"(multi-stability)的训练环境:不同候选在不同标量化下轮流获得优势,没有哪个单一模式能够彻底主导策略分布,从而维持了策略的"非承诺性"(non-committal)——它始终保留多种可行的解题策略,等待搜索阶段从中做出最终选择。

值得注意的是,VPO的目标并非传统意义上的多目标优化。在经典多目标RL中,研究者通常训练一个以偏好权重为条件的策略网络,让用户能够根据当前偏好查询对应的最优解。VPO则不同:它的目标权重w是固定的、已知的,但实现该目标的最佳方式恰恰是训练一个能够覆盖整个帕累托前沿的集合。这种看似悖论的做法——为了优化一个固定目标而故意不直接优化它——正是搜索增强范式下训练逻辑的核心翻转。作者将其类比为一种"延迟承诺"策略:训练阶段广撒网,保留所有可能通向终极高分的途径;搜索阶段再收网,从丰富的备选方案中拣选真正最优的组合。

第三节:技术架构

VPO的技术实现由两个紧密耦合的构件组成,二者单独存在时均不足以达成目标,但协同工作时便形成了一个稳定的集层级优化框架。第一个构件是"多答案链"(multi-answer chains)机制,它利用了现代大语言模型在上下文中的推理能力来实现内生探索;第二个构件是"随机标量化"(stochastic scalarization),它通过在每个训练步采样不同的奖励权重组合,为多样性提供明确的学习信号。这两个构件共同定义了VPO的集层级目标函数,使其可以作为GRPO优势估计器的直接替代方案嵌入现有RL管线。

多答案链的设计灵感来源于Puri等人(2026)关于分布推理的研究。与传统方法中独立采样k个候选不同,VPO训练模型在单次自回归 rollout 中顺序生成m个候选解,候选之间以分隔符隔开。当生成第i个候选yi时,模型已经可以看到此前生成的y1,...,yi1作为上下文前缀。这一设计的精妙之处在于,它将多样性从"采样噪声的副产品"提升为"模型主动决策的能力"。在独立采样模式下,所有候选都来自同一个条件分布,差异仅来源于解码时的随机性,因此一旦策略坍缩到某个模式,额外的采样几乎只能产生围绕该模式的微小扰动。而在多答案链模式下,模型可以在生成后续候选时有意识地"审视"已经覆盖的解空间区域,并主动将新的候选导向不同的方向——这种能力在上下文学习(in-context learning)的框架下是完全可行的。然而,仅有生成多答案的"能力"还不足够;如果没有恰当的训练信号,模型仍可能输出m个几乎相同的答案。事实上,实验中的Multi-RLVR基线(使用多答案链但固定标量奖励)就印证了这一点:其奖励空间多样性在训练早期即发生坍缩。因此,多答案链提供了多样性的"容量"(capacity),但还需要第二个构件来提供"激励"(incentive)。

这第二个构件便是随机标量化下的集层级优化目标。VPO摒弃了固定的奖励权重w,转而在每次 rollout 时从Dirichlet分布Dir(α)中采样权重向量w,其中αR>0d控制分布形态。实验中统一使用α=1(即各分量均为1),这使得采样出的权重在单纯形Δd1上近似均匀分布——意味着任何满足wi0iwi=1的权重组合都有机会被选中。给定一个候选集合S={y1,...,ym},其在某个标量化w下的得分定义为集合中最佳元素的加权奖励:

R(S)=EwDir(α)[maxySwr(x,y)]

这个目标的直观含义极为清晰:它直接奖励候选集合对奖励空间的"覆盖度"。如果一个集合中所有候选都是同一个模式的重复,那么它们只在单纯形的狭窄区域内表现良好;而一个包含多种权衡策略的集合,则能在广泛的权重采样下都有出色的代表,从而获得更高的期望得分。从优化角度看,这个目标函数本质上是在最大化"采样w后的最佳候选的期望表现",即对best-of-m在随机权重上的期望。这与Bagirov等人提出的max@k优化有哲学上的亲缘关系,但关键区别在于VPO将候选生成为内聚的链式集合而非独立抽取,从而允许模型在上下文层面协调各候选间的差异。

在实际训练流程中,VPO与GRPO共享底层基础设施,仅替换优势估计模块。对于每个提示x,采样G组 rollout,每组产生m个候选构成的集合S(g);同时采样K个共享的标量化权重w(1),...,w(K)iidDir(1),这些权重在所有G组 rollout 中保持一致以确保组间可比性。每组 rollout 的蒙特卡洛奖励估计为:

R^(S(g))=1Kk=1KmaxsS(g)w(k)r(x,s)

随后,基于这些奖励估计计算GRPO风格的优势值——即在组内进行z-score标准化——并将该优势均匀应用于该 rollout 中的每一个token。KL散度正则项仍然保留,约束策略不会偏离参考模型过远。整个流程的计算开销与GRPO相比具有可比性:虽然每个 rollout 包含m个候选因而前向传播更长,但推理前缀(reasoning prefix)在链内是共享的,且所有候选可并行评估,实际增加的开销远低于m倍。值得注意的是,由于权重在组内共享,不同 rollout 之间的竞争是在"相同规则"下进行的,这保证了优势估计的无偏性。

从整体架构视角审视,VPO将策略优化重新诠释为一种"覆盖问题"(coverage problem):策略不再被要求找到一个"最优点",而是被要求找到一个"最优集合",使得该集合在奖励单纯形上的投影尽可能宽广。这种视角转变带来了算法设计上的连锁反应——训练不再聚焦于提升单一响应的期望值,而是提升整个响应集合的"集体竞争力"。每一次参数更新都在微妙地调整策略,使其在保持各候选基本 competence 的前提下,让它们朝着奖励空间中不同的"生态位"分化。这种分化并非人为设定,而是由随机标量化的自然选择压力诱导出来的:每当某个权重组合被采样,集合中在该组合下表现最佳的候选获得 strongest 的梯度信号,长此以往,不同位置上的候选便会自发地 specialize 到不同的权重区域。

第四节:实验评估

VPO的实验设计遵循一个清晰的科学问题链:首先验证核心假设——VPO能否提升测试时搜索的效果;然后隔离变量——确定哪些构件对增益至关重要;最后进行压力测试——在更困难的问题和更复杂的搜索机制上验证鲁棒性。整个实验矩阵横跨四个主要领域和一个案例研究,涵盖了从合成导航到真实代码竞赛的广泛场景,充分体现了方法的通用性。

四个主要评估领域被刻意选取以覆盖不同的多目标结构形态。Maze领域是一个人工构建的9×9网格导航任务,奖励向量rR4包含一个二元完成指标和三个关于物品收集与安全避障的连续/离散分量。该任务的关键设计在于:迷宫几何结构经过精心构造,确保没有任何单一路径可以同时收集所有物品并安全抵达终点——这强制产生了真实的权衡,使该领域成为检验"即使评估标量与GRPO相同,VPO是否仍能胜出"的理想受控环境。MuSiQue是一个2-4跳阅读理解基准,奖励向量rR5由四个二元引用指标和一个连续答案F1分数组成;GRPO标量将答案维度加权3倍以反映其优先级。EUREQA是一个5跳链式推理基准,奖励r{0,1}5为逐实体精确匹配,因果链式结构意味着每个分量的训练信号都能明确指出推理链的哪一步出错。ToolRL则是函数调用基准,奖励rR4包含一个二元格式分量和三个连续的F1维度,按难度梯度从格式正确到参数值精确排列。所有领域统一使用m=3的候选链长度。

基线设置体现了作者对"因素隔离"的严谨追求。除了标准GRPO(单答案、标量奖励)外,实验还包括:Multi-RLVR(多答案链但固定标量奖励),用于测试多答案生成本身是否足够;Random-Weighting GRPO(单答案但随机标量化),用于测试仅随机化奖励是否有效;Max-at-K Training(直接优化best@k目标),用于对比搜索感知型标量优化;MaxRL(另一种搜索感知RL目标,通过额外采样近似最大似然学习);以及Goal-Conditioned GRPO(将目标权重作为条件输入),用于对比显式多目标条件化方法。这一基线阵容确保了任何观察到的VPO优势都可以被精确归因到其独特的机制组合上。

核心实验结果呈现出高度一致的模式。在MuSiQue上(见表1),VPO在best@3即达到0.742,而GRPO仅为0.711;随着k增大到30,VPO继续攀升至0.832,GRPO却停滞在0.728。Multi-RLVR虽然也因多答案链而在初期优于GRPO,但其best@k曲线迅速平台化,最终仅达0.633。EUREQA和ToolRL领域重现了类似格局(表3、表4),VPO均持续从额外采样中提取价值,而标量基线很快饱和。Maze领域的结果尤为耐人寻味(表2):尽管VPO训练时面对的是Dirichlet随机权重,而评估时使用的是GRPO的均匀均值标量,它仍在best@3上以0.512大幅领先GRPO的0.432,在best@30上更以0.593对0.432的优势展现了其候选池的丰富度。这说明VPO的多样性训练并未以牺牲单个标量评估下的竞争力为代价——恰恰相反,覆盖帕累托前沿的训练方式反而使策略在特定标量下也表现更强,因为搜索可以从多样化的备选方案中发现更好的组合。

表1:MuSiQue上的best@k表现(300题保留集,按跳数分层)

方法 best@3 best@5 best@10 best@30 F1@30 diversity
GRPO 0.711 0.716 0.721 0.728 0.447 0.054
Multi-RLVR 0.599 0.616 0.627 0.633 0.498 0.814
Max-at-K 0.757 0.768 0.783 0.802 0.573 0.175
VPO (ours) 0.742 0.780 0.809 0.832 0.678 0.587

(注:粗体标记每列最优值。Qwen3-1.7B模型,多答案方法使用m=3候选链。)

消融分析进一步澄清了机制。关于"增益是否仅来自训练时更多的评估信号"这一问题,作者在MuSiQue上进行了对照实验:给GRPO和GDPO(一种改进归一化的GRPO变体)3倍的 rollout 数量(n=24,即3倍的语言模型计算量),而VPO仅使用n=8。结果显示,即便拥有3倍计算资源,GRPO和GDPO在best@3上分别仅达0.763和0.765,仍低于VPO的0.779;在Dirichlet平均评估Ew[best@3]上,VPO的0.856同样领先于3倍计算GRPO的0.841。这表明额外的评估信号和更好的归一化虽然能带来边际改善,但无法弥补标量目标本身对多样性集合的抑制。关于"为何不直接条件化权重"的问题,作者在Maze上训练了Goal-Conditioned GRPO策略,分别在固定w和随机w条件下进行评估。有趣的是,该策略发生了严重的模式坍缩(best@3与best@6完全相等),且开始忽略输入的条件权重——这说明即便显式提供权重信息,模型也难以可靠地将文本编码的偏好转化为有效的行为分化,相比之下VPO通过集层级目标实现的隐式分化反而更为有效。

奖励空间多样性指标(reward-space diversity)——定义为候选池中奖励向量间的平均成对L1距离——为上述结果提供了机制层面的解释。VPO在训练全过程中维持了显著高于Multi-RLVR的奖励空间多样性;而Multi-RLVR唯一在多样性上接近VPO的领域EUREQA,恰好也是其best@k表现最接近VPO的领域。这一相关性有力地支持了"VPO的训练时多样性直接转化为测试时搜索收益"的因果主张。当候选池在奖励空间中广泛分布时,best@k搜索就有更大的机会找到一个在特定标量化下表现卓越的"隐藏宝石";反之,如果所有候选都拥挤在奖励空间的同一角落,增加采样数量只是徒劳地重复同一模式。

第五节:案例研究

LiveCodeBench(LCB)案例研究将VPO的验证推向了更具挑战性的高度。这一竞争性编程基准具有严格的时间切分机制——保留集的题目日期晚于所有训练数据,从根本上排除了数据污染的可能性。实验采用双臂对照设计:VPO与标量GRPO从相同的Qwen2.5-Coder-7B-Instruct初始化出发,在相同的DeepCoder语料库上训练一个完整的epoch,唯一的差异在于优势估计器。这种严格的对照确保了任何性能差异都可归因于算法本身,而非数据、模型或超参的混淆。

结果呈现出一种引人注目的"交叉"模式。在单样本pass@1评估中——即没有任何下游搜索可供摊销收益的场景——GRPO以微弱优势领先于VPO。这是完全合理的:当仅允许输出一个答案时,专门训练来探索多样性的策略自然会略逊于直接优化单一标量目标的策略。然而,一旦进入搜索增强的评估模式,图景立即发生逆转。在使用m=3候选链的best@k评估中,VPO在每一个k值上都高于GRPO,且差距随k增大而扩大,与主实验中的模式完全一致。更激动人心的发现在OpenEvolve演化搜索循环中显现:在32道最难的保留集题目上(即在标准best@30模式下两种方法都得分为0的题目),GRPO在约50轮迭代后即陷入停滞,再也发现不了新的有效解法;而VPO在整整200轮迭代中持续不断地产生新的通过测试用例的解,最终破解了GRPO完全无法触及的问题。图4C和4D清晰地记录了这一 divergence(分化):VPO的pass@t和best@t曲线在整个搜索过程中保持上升趋势,而GRPO的曲线在初期小幅爬升后迅速 flatten out(拉平)。

这一案例研究的价值远超单纯的数据点增量。它回答了两个关键问题:其一,VPO的收益在显著更难的编程竞赛问题上依然成立;其二,VPO的收益在面对远比best@k复杂的演化搜索机制时不仅未减弱,反而更加凸显。演化搜索通过迭代重写与测试反馈的结合,对候选池的质量和多样性提出了更高要求——它不仅需要"好的"候选,还需要"可被改进的"候选,即包含部分正确思路、可以通过变异和组合进一步提升的构建模块。VPO训练的多样化策略恰好提供了这样的"原始材料":由于不同候选 specialize 于不同的测试用例组合或算法策略,演化过程可以从多个方向进行尝试和重组,而不会被锁定在单一但已达瓶颈的解法家族中。这与自然界中遗传多样性与适应性的关系形成了深刻类比:一个基因库越丰富,种群在面对未知环境压力时越有可能产生突破性的适应性变异。

从反面审视,UltraFeedback上的附加实验(附录F)则勾勒出VPO适用性的边界。在该领域中,奖励向量的五个名义分量在训练后呈现高度共线性(collinearity,VPO的on-policy ρ¯=0.95),意味着简单形实际上坍缩为一条线,几乎不存在真实的权衡空间。在这种情况下,VPO的绝对best@k略低于标量GRPO,尽管其per-k增长斜率仍是所有方法中最大的。这一"负面结果"恰恰强化了论文的核心论点:VPO的增益精确地来源于奖励分量间的真实竞争关系;当分量实际上是冗余的——即一个分量的高分几乎必然意味着其他分量也高——那么刻意训练多样性便没有价值。这种"有条件适用"的诚实刻画,增强了整个研究的可信度。

第六节:综合价值与局限

VPO在概念层面带来的最深远影响,或许是对LLM训练范式的哲学重构。它将后训练阶段的目标从"找到最佳响应"重新定义为"生成最佳候选池",这种视角转换与软件工程中"关注点分离"(separation of concerns)的设计原则异曲同工。通过将 exploitation 的责任明确地委托给测试时搜索,训练算法得以从探索与利用的永恒张力中解脱出来,专注于自己最擅长的事情:在广阔的解空间中发现并维持多种高质量的可能性。这种分工不仅提升了整体系统的效率,也为训练算法的设计开辟了新的自由度——既然不再需要担心收敛到单一最优,就可以大胆采用更激进的探索策略,将策略分布的"表面积"最大化。

从理论价值来看,VPO为多目标RL与语言模型训练的交叉领域贡献了新的分析工具。它展示了经典帕累托优化思想如何与自回归生成模型的上下文学习能力相结合,产生出既有理论根基又有工程可行性的算法。尤其是"集层级目标函数"的提出——将策略优化的单位从"单个响应"提升到"响应集合"——为后续研究提供了一个可扩展的抽象层次。未来的工作可以在此基础上引入更复杂的集合评价指标(如基于覆盖度的指标),或结合信息论中的多样性度量来设计新的训练目标。

实践层面的应用前景同样值得期待。对于任何部署了搜索或验证管线的LLM系统——无论是代码生成中的多测试用例验证、科学发现中的假设生成与筛选、还是对话系统中的多轮策略评估——VPO都提供了一种原则上更优的后训练方案。它几乎可以作为现有RL管线的"即插即用"升级:只需替换优势估计模块,无需改动模型架构或损失函数的其他部分。这种低侵入性大大降低了 adoption(采纳)门槛。然而,将VPO从实验室原型转化为生产就绪方案仍需跨越若干障碍:多答案链的生成增加了单次推理的时延和显存占用;奖励向量的设计需要领域专家的知识来识别真正有意义的分解维度;而训练动态的不稳定性(多候选间的梯度干扰)可能需要更精细的超参调优。

论文对局限性的坦诚讨论同样值得赞赏。作者明确指出,精确匹配不同方法间的训练计算量存在固有困难——多答案链的序列更长,但共享推理前缀,且各候选的奖励评估可并行化,这种不对称性使得"等计算比较"难以做到绝对公平。不过,3倍计算对照实验至少表明VPO的优势并非单纯的计算量套利。第二个局限更为根本:VPO依赖于奖励信号的向量结构。如果任务的奖励本质上是标量——即不存在自然的分量分解——那么VPO便退化为标准RL,其独特优势无从发挥。这提示实践者在应用VPO前,首先需要审视其任务奖励是否具备多维度结构,以及这些维度之间是否存在有意义的冲突或权衡。第三个局限涉及单样本性能与多样性的 trade-off:VPO通过牺牲pass@1来换取pass@k和best@k的提升,这意味着在完全不需要搜索的极简部署场景中,VPO并非最佳选择。这一权衡是结构性的而非技术性的,它根植于"探索-利用分离"的核心设计哲学之中。

从领域趋势来看,VPO与当前 inference-time compute scaling(推理时计算扩展)的研究浪潮形成了有力的共振。随着OpenAI的o系列模型、DeepSeek-R1以及各类测试时训练方法的涌现,"让模型在推理时思考更久"已成为提升性能的核心路径。VPO的独特贡献在于,它指出了提升推理时效率的另一个维度:不是让模型在测试时产生更多计算,而是让模型在训练时就学会产生"更值得搜索"的候选。这种"前置投资"可以放大任何下游搜索机制的收益——无论是简单的best@k、拒绝采样,还是复杂的蒙特卡洛树搜索或演化算法。从这个角度看,VPO为 inference-time scaling 提供了一个互补的训练时杠杆。

第七节:延伸阅读与思考

VPO的思想渊源可追溯至多个相关研究领域,理解这些联系有助于将其置于更广阔的学术图景之中。在训练时优化以配合推理时搜索方面,BOND(Sessa等人,2025)和BoNBoN(Gui等人,2024)尝试将best-of-N分布蒸馏为单一策略;InfAlign(Balashankar等人,2024)通过奖励变换使标准RLHF对推理时采样具有感知能力;而更贴近VPO的Pass@k训练(Chen等人,2025)与max@k优化(Bagirov等人,2025)则直接以搜索性能为训练目标。这些方法与VPO的关键差异在于:它们将k个样本视为从策略中独立抽取的,而VPO通过单次自回归链内聚地生成候选集合,从而允许候选间的上下文协调。Multi-RLVR(Puri等人,2026)同样使用多答案链,但固定标量目标,实验表明这不足以维持多样性——这一对比鲜明地凸显了VPO在目标函数层面的创新价值。

在多目标RL与奖励随机化领域,Roijers等人(2013)关于多目标序列决策的综述、Yang等人(2019)的广义多目标RL算法、以及Mahankali等人(2024)关于奖励随机化用于探索的工作,都为VPO提供了方法论上的养料。Tang等人(2021)通过在训练中采样奖励扰动来发现多样化的多智能体策略,其精神与VPO的Dirichlet采样有异曲同工之妙。而在演化计算一侧,lexicase selection(Spector,2012;La Cava等人,2019)通过在不同目标子集上轮流施加选择压力来维持种群多样性,Ni等人(2024)的Dalex工作则进一步拓展了这一方向。VPO可以被视为将这些经典思想适配到自回归语言模型语境下的成功尝试——它将演化中的"种群多样性"翻译为策略的"候选集合覆盖度",将lexicase中的"轮流选择"翻译为Dirichlet权重的"随机标量化"。

展望未来,VPO打开的研究方向令人兴奋。一个直接的问题是:能否将VPO与更复杂的搜索算法深度融合,而非仅仅为其提供候选池?例如,在蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)中,VPO训练的多样化策略可以为每个节点的扩展提供更丰富的动作候选,从而提升搜索树的探索效率。另一个方向是将VPO扩展到连续或开放-ended的生成任务中,其中奖励向量的维度可能不是预先固定的,而是随任务动态变化的。在这种情况下,如何设计适应性的标量化采样机制,将成为一个有趣的技术挑战。更深层的理论问题关乎"最优多样性"的度量:VPO使用Dirichlet均匀采样作为默认设置,但这是否总是最优的?如果已知下游搜索的某些特征(如更关注某些奖励维度),是否可以通过非均匀的Dirichlet参数α来进一步提升训练效率?这些问题指向一个更一般的"元优化"框架:将标量化分布本身作为可学习的参数,在元训练(meta-training)层面进行优化。

本文最令人深思的启示或许超越了具体的技术细节,而触及AI系统设计的基本哲学。VPO有力地论证了一个反直觉的命题:有时,为了在最关心的目标上表现更好,最好的策略恰恰是不要直接优化它。通过将固定目标w的优化替换为对整个目标空间的覆盖,VPO在测试时反而能在w下取得更优的表现。这让人联想到机器学习中的"辅助任务学习"(auxiliary task learning)和"课程学习"(curriculum learning)等范式——间接路径有时比直接路径更有效。在更宏观的层面,它提示我们重新思考"优化"与"通用能力"之间的关系:一个过度优化的系统可能在特定指标上达到极限,却丧失了应对变化或发现突破的灵活性;而一个刻意保持"非承诺性"的系统,虽然短期内看似低效,却可能拥有更长远的适应潜力。在AGI(Artificial General Intelligence, 通用人工智能)的探索道路上,这种"保留可能性空间"的智慧可能比"压榨单一指标"的精明更为关键。

如果有一件事值得在未来深入探索,那便是VPO训练动态的微结构:在策略的参数空间中,是什么样的几何结构使得模型能够自发地分化出针对不同奖励区域的 specialists?不同候选在链中的位置(第一、第二、第三)是否存在系统性的行为模式?链内候选间的注意力分布如何随训练演化?借助现代的可解释性工具(interpretability tools),这些问题的答案或许能为我们理解大语言模型的内部表示空间提供新的窗口——不仅仅是为了改进VPO,更是为了揭示这些模型究竟如何在向量空间中编码和权衡多重目标。毕竟,每一次训练算法的创新,也是一次窥探模型心智结构的机会。

Topics:

Powered by Forestry.md