Vector Policy Optimization: Training for Diversity Improves Test-Time Search
Title: Vector Policy Optimization: Training for Diversity Improves Test-Time Search
Authors: Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit Agrawal
Institutions: MIT, Improbable AI Lab, MIT-IBM Computing Research Lab, Sakana AI
Venue: arXiv preprint
Year: 2026
Pages: ~10 (main text) + extensive appendix
第一节:研究摘要
当代大语言模型(Large Language Model, LLM)的训练范式正面临一个深刻的张力:后训练阶段(post-training)的强化学习(Reinforcement Learning, RL)优化目标,与模型在实际部署中所需的能力之间,存在根本性的错配。传统上,RL后训练通过优化一个预先设定的标量奖励函数(scalar reward),驱使策略向单一的最优响应收敛。这种优化在单响应评估场景下是合理的——如果模型每次只输出一个答案,且评估标准固定不变,那么直接针对该标准训练自然是最优选择。然而,现实中的应用图景已然不同:现代AI系统越来越多地将语言模型嵌入更宏大的推理管线之中,借助测试时搜索(test-time search)机制——从简单的拒绝采样(rejection sampling)与验证器筛选,到复杂的演化算法如AlphaEvolve——在大量候选响应中遴选出最优解。在这种"搜索增强"的范式下,模型的价值不再体现在单一响应的优劣,而在于其能否持续产出丰富、多元且各具特色的高质量候选解,供下游搜索模块从中淘洗。遗憾的是,以GRPO(Group Relative Policy Optimization, 群组相对策略优化)为代表的策略梯度方法天然倾向于压缩输出分布的熵,使策略坍缩到少数高概率模式上,导致额外的采样变得冗余——这些近重复的候选几乎无法为搜索带来任何边际增益。
本文提出的Vector Policy Optimization(向量策略优化,简称VPO)正是为破解这一困局而生。作者团队的核心洞察在于:许多实际任务中的奖励信号并非单一的标量,而是天然可分解为多个分量构成的向量(vector-valued reward)。例如,代码生成中的逐测试用例正确性、多轮对话中针对不同用户画像的偏好评分、多跳推理中每步子问题的成功与否,都可以视为奖励向量的不同维度。传统的做法是将这些分量通过固定权重加权求和,折叠为一个标量后再进行优化,这无异于在奖励的单纯形(simplex)上选定一个点,然后驱使所有策略资源向该点汇聚。VPO反其道而行之:它不再固定权重,而是从Dirichlet分布中随机采样不同的权重向量,让策略学会在单次前向传播中生成一组覆盖奖励帕累托前沿(Pareto frontier)的候选解集合。每个候选在不同权重标量化下各有所长,从而确保整个候选池在奖励空间中保持广泛的覆盖度。这一思路的优雅之处在于,它并非在原有标量优化目标上附加一个多样性正则项——那种做法终究是与收敛趋势对抗的——而是直接将"覆盖单纯形的能力"内嵌为优化目标本身,使多样性成为训练的自然均衡态而非勉强维持的产物。
VPO的技术贡献可概括为三个相互交织的层面。其一,作者明确论证了在存在测试时搜索的AI系统中,训练与 exploitation(利用)应当解耦:训练阶段专司探索(exploration),致力于生成多样化的高能力候选池;搜索阶段则负责利用,从池中拣选最优解。这种分工颠覆了传统RL将探索与利用混为一谈的做法。其二,作者展示了奖励的向量结构如何为多目标优化提供天然的多样性轴,通过训练策略覆盖帕累托前沿而非坍缩到单点,从而在搜索预算增大时持续释放价值。其三,VPO的具体实现巧妙地结合了两个机制——单次自回归 rollout 中的多答案生成(multi-answer generation)与随机奖励标量化(stochastic reward scalarization)——形成一种"集层级"(set-level)的优化目标,可直接嵌入现有RL框架作为GRPO优势估计器(advantage estimator)的替代。
实验结果有力地佐证了上述主张。在横跨多跳问答(MuSiQue)、逻辑链推理(EUREQA)、网格导航(Maze)与工具调用(ToolRL)的四个基准测试中,VPO在测试时搜索指标best@k上均匹配或超越了最强的标量RL基线,且随着候选预算k的增加,优势愈发明显。更具说服力的是LiveCodeBench案例研究:在与标量GRPO使用相同计算资源、从相同初始化出发的对照实验中,VPO不仅在best@k上全面占优,更在OpenEvolve演化搜索循环中解锁了GRPO完全无法求解的难题——在200轮迭代中持续发现新解,而GRPO早已陷入平台期。这些发现指向一个令人深思的结论:当测试时搜索成为标配,优化多样性或许应当取代单一标量最大化,成为RL后训练的默认目标。
第二节:理论框架
要真正理解VPO的理论根基,需要将其置于两条思想脉络的交汇之处:一是强化学习中探索与利用的长期博弈,二是多目标优化中帕累托最优的经典范式。自Sutton与Barto奠定RL基础以来,探索与利用的权衡(exploration-exploitation trade-off)始终是这一领域的核心议题。在经典RL中,智能体必须在尝试新策略与坚持已知高回报策略之间做出抉择;一系列内在动机(intrinsic motivation)与计数式探索方法试图为智能体维持行为多样性,以防止过早陷入局部最优。进入大模型时代,这一张力非但没有缓解,反而因模型规模与部署场景的复杂化而愈发尖锐。Setlur等人提出的e^3框架、Chen等人关于pass@k训练的研究,以及Hong等人关于好奇心驱动红队测试(curiosity-driven red-teaming)的工作,都在从不同角度叩问同一个问题:如何使基础模型在RL后训练之后仍保有多样的行为能力?
然而,上述工作大多仍将探索与利用视为需要在同一训练阶段内调和的双重目标。本文作者提出了一种结构性的解耦思路:既然现代AI系统普遍在推理时部署搜索机制来处理利用问题,那么训练阶段就应当"放手"对单一最优解的追求,转而专注于为搜索提供丰富多样的候选池。这一视角的转换具有方法论上的深刻含义——它重新定义了"好的策略"的标准:不再是在固定评估指标下生成最佳单响应的策略,而是能在不同奖励维度上各自产出 competent(胜任的) specialists(专家)的策略集合。这与演化计算中 lexicase selection(词典式选择)的精神遥相呼应:后者通过在不同目标子集上轮流筛选,保留那些在特定目标组合下表现优异的个体,避免全体种群向单一综合评分的最高点收敛。同样,多目标RL中的帕累托最优概念也为VPO提供了概念工具——Roijers等人关于多目标序列决策的综述系统阐述了如何在冲突目标间寻找最优权衡集合,而Hayes等人的实践指南则展示了这些理论在深度RL中的落地方式。
VPO的核心概念体系围绕着"奖励多样性"(reward diversity)展开。作者将这一性质形式化地定义为:一个候选池具有奖励多样性,当且仅当其中包含的解各自在不同的奖励分量权重标量化下达到最优。设输入提示为
在单响应评估下,这一目标是合理的。但一旦引入搜索,情况就发生了质变。搜索过程考察的是候选集合而非个体,一个在多个权重区域都有优秀代表的候选池,为搜索提供了远比单一最优模式更大的发现空间。标量训练的问题在于,它会在训练早期就压制那些在当前
这一机制与"结构化探索"(structured exploration)的概念紧密相连。不同于在参数空间或动作空间添加噪声的无差别探索,VPO的探索是有结构的:它沿着奖励向量的自然维度展开,确保探索出的多样性恰好是下游搜索所需要的——即不同奖励分量间的真实权衡(trade-off)。这种探索不会盲目生成语义上花哨但搜索价值低下的变体,而是系统性地填充奖励空间中的帕累托前沿。从动力学角度理解,VPO创造了一种"多稳态"(multi-stability)的训练环境:不同候选在不同标量化下轮流获得优势,没有哪个单一模式能够彻底主导策略分布,从而维持了策略的"非承诺性"(non-committal)——它始终保留多种可行的解题策略,等待搜索阶段从中做出最终选择。
值得注意的是,VPO的目标并非传统意义上的多目标优化。在经典多目标RL中,研究者通常训练一个以偏好权重为条件的策略网络,让用户能够根据当前偏好查询对应的最优解。VPO则不同:它的目标权重
第三节:技术架构
VPO的技术实现由两个紧密耦合的构件组成,二者单独存在时均不足以达成目标,但协同工作时便形成了一个稳定的集层级优化框架。第一个构件是"多答案链"(multi-answer chains)机制,它利用了现代大语言模型在上下文中的推理能力来实现内生探索;第二个构件是"随机标量化"(stochastic scalarization),它通过在每个训练步采样不同的奖励权重组合,为多样性提供明确的学习信号。这两个构件共同定义了VPO的集层级目标函数,使其可以作为GRPO优势估计器的直接替代方案嵌入现有RL管线。
多答案链的设计灵感来源于Puri等人(2026)关于分布推理的研究。与传统方法中独立采样
这第二个构件便是随机标量化下的集层级优化目标。VPO摒弃了固定的奖励权重
这个目标的直观含义极为清晰:它直接奖励候选集合对奖励空间的"覆盖度"。如果一个集合中所有候选都是同一个模式的重复,那么它们只在单纯形的狭窄区域内表现良好;而一个包含多种权衡策略的集合,则能在广泛的权重采样下都有出色的代表,从而获得更高的期望得分。从优化角度看,这个目标函数本质上是在最大化"采样
在实际训练流程中,VPO与GRPO共享底层基础设施,仅替换优势估计模块。对于每个提示
随后,基于这些奖励估计计算GRPO风格的优势值——即在组内进行z-score标准化——并将该优势均匀应用于该 rollout 中的每一个token。KL散度正则项仍然保留,约束策略不会偏离参考模型过远。整个流程的计算开销与GRPO相比具有可比性:虽然每个 rollout 包含
从整体架构视角审视,VPO将策略优化重新诠释为一种"覆盖问题"(coverage problem):策略不再被要求找到一个"最优点",而是被要求找到一个"最优集合",使得该集合在奖励单纯形上的投影尽可能宽广。这种视角转变带来了算法设计上的连锁反应——训练不再聚焦于提升单一响应的期望值,而是提升整个响应集合的"集体竞争力"。每一次参数更新都在微妙地调整策略,使其在保持各候选基本 competence 的前提下,让它们朝着奖励空间中不同的"生态位"分化。这种分化并非人为设定,而是由随机标量化的自然选择压力诱导出来的:每当某个权重组合被采样,集合中在该组合下表现最佳的候选获得 strongest 的梯度信号,长此以往,不同位置上的候选便会自发地 specialize 到不同的权重区域。
第四节:实验评估
VPO的实验设计遵循一个清晰的科学问题链:首先验证核心假设——VPO能否提升测试时搜索的效果;然后隔离变量——确定哪些构件对增益至关重要;最后进行压力测试——在更困难的问题和更复杂的搜索机制上验证鲁棒性。整个实验矩阵横跨四个主要领域和一个案例研究,涵盖了从合成导航到真实代码竞赛的广泛场景,充分体现了方法的通用性。
四个主要评估领域被刻意选取以覆盖不同的多目标结构形态。Maze领域是一个人工构建的
基线设置体现了作者对"因素隔离"的严谨追求。除了标准GRPO(单答案、标量奖励)外,实验还包括:Multi-RLVR(多答案链但固定标量奖励),用于测试多答案生成本身是否足够;Random-Weighting GRPO(单答案但随机标量化),用于测试仅随机化奖励是否有效;Max-at-K Training(直接优化best@k目标),用于对比搜索感知型标量优化;MaxRL(另一种搜索感知RL目标,通过额外采样近似最大似然学习);以及Goal-Conditioned GRPO(将目标权重作为条件输入),用于对比显式多目标条件化方法。这一基线阵容确保了任何观察到的VPO优势都可以被精确归因到其独特的机制组合上。
核心实验结果呈现出高度一致的模式。在MuSiQue上(见表1),VPO在best@3即达到0.742,而GRPO仅为0.711;随着
表1:MuSiQue上的best@k表现(300题保留集,按跳数分层)
| 方法 | best@3 | best@5 | best@10 | best@30 | F1@30 | diversity |
|---|---|---|---|---|---|---|
| GRPO | 0.711 | 0.716 | 0.721 | 0.728 | 0.447 | 0.054 |
| Multi-RLVR | 0.599 | 0.616 | 0.627 | 0.633 | 0.498 | 0.814 |
| Max-at-K | 0.757 | 0.768 | 0.783 | 0.802 | 0.573 | 0.175 |
| VPO (ours) | 0.742 | 0.780 | 0.809 | 0.832 | 0.678 | 0.587 |
(注:粗体标记每列最优值。Qwen3-1.7B模型,多答案方法使用
消融分析进一步澄清了机制。关于"增益是否仅来自训练时更多的评估信号"这一问题,作者在MuSiQue上进行了对照实验:给GRPO和GDPO(一种改进归一化的GRPO变体)3倍的 rollout 数量(
奖励空间多样性指标(reward-space diversity)——定义为候选池中奖励向量间的平均成对
第五节:案例研究
LiveCodeBench(LCB)案例研究将VPO的验证推向了更具挑战性的高度。这一竞争性编程基准具有严格的时间切分机制——保留集的题目日期晚于所有训练数据,从根本上排除了数据污染的可能性。实验采用双臂对照设计:VPO与标量GRPO从相同的Qwen2.5-Coder-7B-Instruct初始化出发,在相同的DeepCoder语料库上训练一个完整的epoch,唯一的差异在于优势估计器。这种严格的对照确保了任何性能差异都可归因于算法本身,而非数据、模型或超参的混淆。
结果呈现出一种引人注目的"交叉"模式。在单样本pass@1评估中——即没有任何下游搜索可供摊销收益的场景——GRPO以微弱优势领先于VPO。这是完全合理的:当仅允许输出一个答案时,专门训练来探索多样性的策略自然会略逊于直接优化单一标量目标的策略。然而,一旦进入搜索增强的评估模式,图景立即发生逆转。在使用
这一案例研究的价值远超单纯的数据点增量。它回答了两个关键问题:其一,VPO的收益在显著更难的编程竞赛问题上依然成立;其二,VPO的收益在面对远比best@k复杂的演化搜索机制时不仅未减弱,反而更加凸显。演化搜索通过迭代重写与测试反馈的结合,对候选池的质量和多样性提出了更高要求——它不仅需要"好的"候选,还需要"可被改进的"候选,即包含部分正确思路、可以通过变异和组合进一步提升的构建模块。VPO训练的多样化策略恰好提供了这样的"原始材料":由于不同候选 specialize 于不同的测试用例组合或算法策略,演化过程可以从多个方向进行尝试和重组,而不会被锁定在单一但已达瓶颈的解法家族中。这与自然界中遗传多样性与适应性的关系形成了深刻类比:一个基因库越丰富,种群在面对未知环境压力时越有可能产生突破性的适应性变异。
从反面审视,UltraFeedback上的附加实验(附录F)则勾勒出VPO适用性的边界。在该领域中,奖励向量的五个名义分量在训练后呈现高度共线性(collinearity,VPO的on-policy
第六节:综合价值与局限
VPO在概念层面带来的最深远影响,或许是对LLM训练范式的哲学重构。它将后训练阶段的目标从"找到最佳响应"重新定义为"生成最佳候选池",这种视角转换与软件工程中"关注点分离"(separation of concerns)的设计原则异曲同工。通过将 exploitation 的责任明确地委托给测试时搜索,训练算法得以从探索与利用的永恒张力中解脱出来,专注于自己最擅长的事情:在广阔的解空间中发现并维持多种高质量的可能性。这种分工不仅提升了整体系统的效率,也为训练算法的设计开辟了新的自由度——既然不再需要担心收敛到单一最优,就可以大胆采用更激进的探索策略,将策略分布的"表面积"最大化。
从理论价值来看,VPO为多目标RL与语言模型训练的交叉领域贡献了新的分析工具。它展示了经典帕累托优化思想如何与自回归生成模型的上下文学习能力相结合,产生出既有理论根基又有工程可行性的算法。尤其是"集层级目标函数"的提出——将策略优化的单位从"单个响应"提升到"响应集合"——为后续研究提供了一个可扩展的抽象层次。未来的工作可以在此基础上引入更复杂的集合评价指标(如基于覆盖度的指标),或结合信息论中的多样性度量来设计新的训练目标。
实践层面的应用前景同样值得期待。对于任何部署了搜索或验证管线的LLM系统——无论是代码生成中的多测试用例验证、科学发现中的假设生成与筛选、还是对话系统中的多轮策略评估——VPO都提供了一种原则上更优的后训练方案。它几乎可以作为现有RL管线的"即插即用"升级:只需替换优势估计模块,无需改动模型架构或损失函数的其他部分。这种低侵入性大大降低了 adoption(采纳)门槛。然而,将VPO从实验室原型转化为生产就绪方案仍需跨越若干障碍:多答案链的生成增加了单次推理的时延和显存占用;奖励向量的设计需要领域专家的知识来识别真正有意义的分解维度;而训练动态的不稳定性(多候选间的梯度干扰)可能需要更精细的超参调优。
论文对局限性的坦诚讨论同样值得赞赏。作者明确指出,精确匹配不同方法间的训练计算量存在固有困难——多答案链的序列更长,但共享推理前缀,且各候选的奖励评估可并行化,这种不对称性使得"等计算比较"难以做到绝对公平。不过,3倍计算对照实验至少表明VPO的优势并非单纯的计算量套利。第二个局限更为根本:VPO依赖于奖励信号的向量结构。如果任务的奖励本质上是标量——即不存在自然的分量分解——那么VPO便退化为标准RL,其独特优势无从发挥。这提示实践者在应用VPO前,首先需要审视其任务奖励是否具备多维度结构,以及这些维度之间是否存在有意义的冲突或权衡。第三个局限涉及单样本性能与多样性的 trade-off:VPO通过牺牲pass@1来换取pass@k和best@k的提升,这意味着在完全不需要搜索的极简部署场景中,VPO并非最佳选择。这一权衡是结构性的而非技术性的,它根植于"探索-利用分离"的核心设计哲学之中。
从领域趋势来看,VPO与当前 inference-time compute scaling(推理时计算扩展)的研究浪潮形成了有力的共振。随着OpenAI的o系列模型、DeepSeek-R1以及各类测试时训练方法的涌现,"让模型在推理时思考更久"已成为提升性能的核心路径。VPO的独特贡献在于,它指出了提升推理时效率的另一个维度:不是让模型在测试时产生更多计算,而是让模型在训练时就学会产生"更值得搜索"的候选。这种"前置投资"可以放大任何下游搜索机制的收益——无论是简单的best@k、拒绝采样,还是复杂的蒙特卡洛树搜索或演化算法。从这个角度看,VPO为 inference-time scaling 提供了一个互补的训练时杠杆。
第七节:延伸阅读与思考
VPO的思想渊源可追溯至多个相关研究领域,理解这些联系有助于将其置于更广阔的学术图景之中。在训练时优化以配合推理时搜索方面,BOND(Sessa等人,2025)和BoNBoN(Gui等人,2024)尝试将best-of-N分布蒸馏为单一策略;InfAlign(Balashankar等人,2024)通过奖励变换使标准RLHF对推理时采样具有感知能力;而更贴近VPO的Pass@k训练(Chen等人,2025)与max@k优化(Bagirov等人,2025)则直接以搜索性能为训练目标。这些方法与VPO的关键差异在于:它们将
在多目标RL与奖励随机化领域,Roijers等人(2013)关于多目标序列决策的综述、Yang等人(2019)的广义多目标RL算法、以及Mahankali等人(2024)关于奖励随机化用于探索的工作,都为VPO提供了方法论上的养料。Tang等人(2021)通过在训练中采样奖励扰动来发现多样化的多智能体策略,其精神与VPO的Dirichlet采样有异曲同工之妙。而在演化计算一侧,lexicase selection(Spector,2012;La Cava等人,2019)通过在不同目标子集上轮流施加选择压力来维持种群多样性,Ni等人(2024)的Dalex工作则进一步拓展了这一方向。VPO可以被视为将这些经典思想适配到自回归语言模型语境下的成功尝试——它将演化中的"种群多样性"翻译为策略的"候选集合覆盖度",将lexicase中的"轮流选择"翻译为Dirichlet权重的"随机标量化"。
展望未来,VPO打开的研究方向令人兴奋。一个直接的问题是:能否将VPO与更复杂的搜索算法深度融合,而非仅仅为其提供候选池?例如,在蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)中,VPO训练的多样化策略可以为每个节点的扩展提供更丰富的动作候选,从而提升搜索树的探索效率。另一个方向是将VPO扩展到连续或开放-ended的生成任务中,其中奖励向量的维度可能不是预先固定的,而是随任务动态变化的。在这种情况下,如何设计适应性的标量化采样机制,将成为一个有趣的技术挑战。更深层的理论问题关乎"最优多样性"的度量:VPO使用Dirichlet均匀采样作为默认设置,但这是否总是最优的?如果已知下游搜索的某些特征(如更关注某些奖励维度),是否可以通过非均匀的Dirichlet参数
本文最令人深思的启示或许超越了具体的技术细节,而触及AI系统设计的基本哲学。VPO有力地论证了一个反直觉的命题:有时,为了在最关心的目标上表现更好,最好的策略恰恰是不要直接优化它。通过将固定目标
如果有一件事值得在未来深入探索,那便是VPO训练动态的微结构:在策略的参数空间中,是什么样的几何结构使得模型能够自发地分化出针对不同奖励区域的 specialists?不同候选在链中的位置(第一、第二、第三)是否存在系统性的行为模式?链内候选间的注意力分布如何随训练演化?借助现代的可解释性工具(interpretability tools),这些问题的答案或许能为我们理解大语言模型的内部表示空间提供新的窗口——不仅仅是为了改进VPO,更是为了揭示这些模型究竟如何在向量空间中编码和权衡多重目标。毕竟,每一次训练算法的创新,也是一次窥探模型心智结构的机会。
Topics:
- "reinforce_learning"
- "llm"
- "test_time_scaling"
- "reasoning"
- "reward_modeling"
References: - "mit"
- "grpo"