Meta-Harness: End-to-End Optimization of Model Harnesses

Yoonho Lee, Roshen Nair, Qizheng Zhang, Kangwook Lee, Omar Khattab, Chelsea Finn
Stanford University, KRAFTON, MIT, Stanford
arXiv:2503.08261, 2026
项目页面:https://yoonholee.com/meta-harness/
代码仓库:https://github.com/stanford-iris-lab/meta-harness-tbench2-artifact


1. 研究摘要 (Research Summary)

在大型语言模型(Large Language Model, LLM)系统的研究与应用中,一个日益凸显却长期被忽视的事实是:决定系统性能的不只是模型权重本身,还有包裹在模型周围的"Harness"——那些决定存储什么信息、检索什么上下文、以及如何向模型呈现信息的代码。Zhang 等人(2025)的工作表明,仅仅改变Harness而保持模型不变,就能在相同基准上产生高达6倍的性能差异。这一惊人发现揭示了一个深刻的科学问题:如果Harness的影响可以与模型本身相提并论,那么Harness工程(Harness Engineering)——即优化围绕LLM的代码以提升整体系统性能——理应成为AI系统研究的核心议题,而非边缘的手艺活。

然而现实是,Harness工程仍然几乎完全依赖人工。从业者需要逐一手动检查失败案例,调整启发式规则,并在极其有限的设计空间中迭代。这种手工模式存在根本性瓶颈:人类工程师难以系统性地探索庞大的代码空间,更难以追溯一个Harness设计决策如何在多步推理后产生连锁影响。因此,自然涌现的核心研究问题是:Harness优化过程本身能否被自动化?如果可以,应该采用何种优化范式?

现有文本优化方法(Text Optimization)看似提供了现成的答案——它们通过反馈信号迭代改进文本或代码产物。但仔细阅读文献后会发现,这些方法与Harness工程的需求存在本质性的不匹配。无论是ProTeGi、TextGrad、OPRO还是AlphaEvolve,它们都在以某种方式压缩反馈信息:有的仅依赖当前候选(Memoryless),有的只以标量分数作为信号,有的将执行轨迹压缩为简短模板或LLM生成的摘要。这种压缩在大规模设置下是实用的可扩展性选择,但论文作者敏锐地指出,这并非因为长程依赖信息本身不重要。Harness的作用横跨长时程:一个关于存储策略、检索时机或呈现方式的单一决策,可能在许多推理步骤之后才显现出后果。当反馈被压缩为标量或摘要时,追踪下游失败到早期Harness决策的因果链条就变得不可能。

Meta-Harness正是为了解决这一根本矛盾而提出的。它的核心思想简单而深刻:不是让优化器在压缩后的摘要上运作,而是让优化器——一个具备编码能力的智能体(Coding Agent)——通过文件系统(Filesystem)直接访问所有历史候选Harness的源代码、执行轨迹和评估分数。这种全历史访问(Full History Access)使优化器能够进行选择性诊断,在原始代码和日志中定位失败原因,而非在预制的摘要中猜测。在论文研究的设定中,单次评估可产生高达1000万Tokens的诊断信息,这比现有文本优化方法中最大的反馈预算高出约三个数量级。

该工作的实验成果令人瞩目。在在线文本分类任务上,Meta-Harness发现的Harness比当前最优的手工设计Harness(ACE)提升7.7个百分点,同时上下文Token消耗仅为后者的四分之一。在检索增强的数学推理任务中,一个Meta-Harness发现的单一检索Harness在五个从未见过的模型上平均提升4.7个百分点——注意,这是在包含50万道题目的语料库上优化后,在200道IMO级别难题上的零样本迁移结果。在Agent编程领域竞争激烈的TerminalBench-2基准上,Meta-Harness自动发现的Harness超越了所有手工设计的基线,在Claude Haiku 4.5模型上排名第一。这些结果表明,当优化器能够 richer 地访问先前经验时,自动化的Harness工程不仅是可能的,而且能够超越人类专家的手工设计。

从更广阔的视角看,这项工作揭示了一个在机器学习史上反复出现的模式(Sutton, 2019 所称的"苦涩的教训"):一旦某个搜索空间变得可访问,更强大的通用智能体往往能够超越专门的手工设计。Meta-Harness将Harness视为代码空间中的可搜索对象,并通过文件系统提供丰富的诊断性反馈,从而使通用编码智能体能够在Harness工程这一特定领域展现出超越人类专家的系统级优化能力。它不只是提出了一种新的优化方法,更是重新定义了Harness优化的信息论基础——从"如何在有限上下文中压缩反馈"转向"如何让智能体在庞大的诊断信息中自主检索和理解因果结构"。

2. 理论框架 (Theoretical Framework)

要理解Meta-Harness的理论根基,需要将其置于三条相互交织的研究脉络之中:元学习(Meta-Learning)关于如何学习的学习、外部记忆与自适应访问关于超越上下文窗口的信息管理,以及近期编码智能体(Coding Agent)的能力跃升使得长时程代码搜索成为可能。

从元学习的视角出发,Meta-Harness继承了"在更高层次上分配credit"的思想。传统元学习(如MAML, Finn et al., 2017)通过梯度下降调整模型权重以实现快速适应。Meta-Harness则将credit分配提升到了Harness层面:它利用过去执行轨迹(Rollout)的经验,有目的地推理哪些步骤和组件导致了失败,然后重写控制未来行为的外部代码。这是一种非参数化的元优化——不是更新神经网络的权重,而是更新程序的源代码。这一视角的关键在于,Harness优化问题具有根本的非局部性:对检索策略的微小改动可能在数百步之后通过级联效应影响最终结果,这使得基于梯度的局部优化变得困难。代码空间的离散性和延迟反馈特性,恰恰需要一种能够在程序语义层面进行诊断和重写的智能体。

外部记忆与自适应访问的研究为Meta-Harness提供了第二个理论支柱。检索增强生成(RAG, Lewis et al., 2020)、交错检索与推理(Interleaved Retrieval and Reasoning, Trivedi et al., 2023)、基于记忆的智能体(Memory-based Agents, Packer et al., 2023)以及递归语言模型(Recursive LMs, Zhang et al., 2026)等一系列工作,共同论证了一个核心原则:当知识源规模庞大或输入长度超长时,将其视为外部资源并让语言模型自适应地访问,优于一次性打包到单一Prompt中。Meta-Harness将这一原则推广到了更极端的场景——Harness工程中的优化器本身就需要自适应地访问庞大的外部历史。在这里,"外部上下文"不是待处理的文档,而是包含所有先前尝试、失败分析和执行记录的诊断性档案。优化器通过grep、cat等标准工具查询这一档案,而非将其作为单一Prompt消化。这是一种对检索原理的元级应用:不是让模型检索知识来回答问题,而是让优化器检索经验来改进系统本身。

论文对Harness给出了精确的形式化定义。令M表示一个固定的大型语言模型,X表示任务分布。对于一个Harness H和任务实例xX,系统执行一条轨迹τpM(H,x)——Harness为模型构建Prompt,模型响应,Harness在每次交互后更新自身状态。任务特定的奖励函数r(τ,x)对整条轨迹进行评分。Harness优化的目标是找到使期望最终奖励最大化的Harness:

H=argmaxHExX,τpM(H,x)r(τ,x)

这个简洁的目标函数背后蕴含着丰富的理论意涵。首先,它明确地将Harness视为有状态程序(Stateful Program),而非静态Prompt模板。这意味着Harness可以跨时间步积累信息、更新内部记忆、并根据当前状态自适应地决定呈现给模型的内容。其次,期望操作涵盖了任务分布的全集,要求发现的Harness对未见过的任务实例具有泛化性,而不仅仅是在训练集上表现良好。第三,当存在多个目标时(例如准确率与上下文成本),论文采用Pareto支配(Pareto Dominance)评估候选Harness,这使优化能够探索效率与性能之间的权衡前沿,而非预先固化单一标量目标。

Meta-Harness搜索循环的理论核心在于其最小化的外层结构。与传统进化算法或贝叶斯优化需要精心设计的选择、变异和交叉规则不同,Meta-Harness几乎将所有诊断和提议决策委托给编码智能体本身。在每一次迭代中,编码智能体P查询不断增长的文件系统D,读取先前Harness的源代码、评估分数和执行轨迹(包括Prompt、工具调用、模型输出和状态更新),然后基于这些诊断信息生成新的Harness。论文维护一个Harness种群和一个Pareto前沿,但不施加任何父代选择规则——智能体可以自由检查任何先前的Harness及其执行记录。这种极简主义是故意的:通过将诊断和编辑决策留给智能体而非硬编码搜索启发式,Meta-Harness的能力可以随着编码智能体的进步而自动提升。

代码空间搜索(Code-Space Search)相比传统局部搜索具有独特的理论优势。在代码空间中,对检索、记忆或Prompt构造逻辑的小改动可能在多步之后影响行为,这使得局部搜索启发式(如梯度下降或简单变异)与问题高度不匹配。通过检查执行轨迹,智能体不仅能知道一个Harness失败了,还能推断它为什么失败,以及哪些早期的设计决策可能导致了失败。论文在附录中展示了一个引人注目的定性案例:智能体在六次连续失败后,识别出Prompt修改是共同因素(而非结构修复本身),然后转向纯粹增量的修改策略,最终获得最佳候选。这种因果推理能力——从失败中分离混淆因素、测试孤立假设、并根据经验调整策略——正是全历史文件系统访问所赋予的,也是压缩反馈优化器无法支持的。

然而,这一理论框架也有其边界和假设。最核心的假设是编码智能体具备足够的代码理解和诊断能力,能够从数十万Token的日志中提取因果信号。论文坦诚地指出,这一工作流"直到2026年初编码智能体能力取得重大进步后才变得实用"。此外,搜索空间的规模虽然庞大,但通过表示为程序引入了自然的正则化偏置:编码模型倾向于提出连贯的算法而非脆弱的硬编码解决方案。另一个理论边界是,论文主要考虑单文件Python程序形式的Harness,更复杂的多模块架构或多智能体协作Harness是否适用,仍是开放问题。

3. 技术架构 (Technical Architecture)

Meta-Harness的技术架构可以用一个优雅的三元循环来描述:提议(Propose)、评估(Evaluate)、记录(Log)。但这个看似简单的外层循环之下,隐藏着关于信息架构和智能体设计的深刻技术抉择。

系统的核心是一个单一的编码智能体提议者(Proposer)P,它在本文实验中的具体实现是配备Opus-4.6模型的Claude Code。关键的设计决策不在于选择了哪款具体的智能体,而在于赋予该智能体一个不断增长的文件系统D作为其唯一的反馈通道。这与传统优化系统形成鲜明对比——后者通常将改进逻辑外化为手工设计的搜索循环,而Meta-Harness将诊断和提议的权力完全下放给智能体本身。智能体不再是接收固定Prompt的原始语言模型,而是能够自主检索信息、导航历史产物、并通过开发工具直接修改代码的Agent。这种架构转变将优化过程从"外部系统编排固定步骤"转变为"智能体在诊断档案中自主探索"。

数据在系统中的流动路径决定了Meta-Harness的行为特征。每当一个Harness被评估时,系统会为其创建一个专用目录,其中存放三样关键产物:Harness的源代码、评估分数以及完整的执行轨迹。执行轨迹是诊断信息的核心载体,它记录了Prompt构建的每一步、模型生成的原始输出、工具调用的参数与结果、Harness内部状态的更新历史等。随着搜索进行,这个文件系统呈指数级增长,迅速远超任何单一智能体的上下文窗口。因此,智能体不尝试一次性消化整个档案,而是使用标准的命令行工具——grep用于搜索特定关键词或失败模式,cat用于查看特定文件内容,diff用于比较不同版本——以按需检索的方式与档案交互。在实际运行中,智能体每次迭代会读取中位数82个文件(范围69-99),其中约41%是先前Harness的源代码,40%是执行轨迹,这种广泛的非马尔可夫访问模式证实了智能体确实在系统性地利用历史,而非仅仅关注最近的父代。

Harness在代码空间中的表示方式为搜索提供了强大的结构性偏置。每个Harness是一个单文件Python程序,它修改任务特定的Prompt构建、检索策略、记忆管理和编排逻辑。这种表示有几个重要的工程含义。首先,它使Harness变得可读、可调试、可移植——发现的Harness不是黑盒权重,而是人类工程师可以理解和复用的源代码。其次,编程语言的语法和语义约束自然地过滤掉了大量无意义的候选:编码模型倾向于生成结构良好的函数、类和循环,而非随机字符组合。第三,单文件限制虽然牺牲了某些复杂架构的可能性,但极大地降低了智能体的认知负担,使其能够在一次上下文窗口内理解整个Harness的逻辑。

搜索循环的具体执行遵循一个精心设计的流程。初始化阶段,系统从一个包含基线Harness的种群H开始——这些基线通常是针对该领域的简单手工设计(如Zero-shot、Few-shot、ACE等),为搜索提供了起点和锚定。对于种群中的每个Harness,执行评估并将结果记录到文件系统中。随后进入迭代循环:在每次迭代t,智能体P首先查询文件系统D,广泛阅读先前的Harness和日志,然后提出k个新Harness。每个提议的Harness都必须通过一个轻量级的接口验证——系统会尝试导入模块、实例化类并在少量示例上调用方法——以过滤掉语法错误和非功能性候选。通过验证的Harness进入完整评估,其结果再次记录到文件系统中。经过固定次数的迭代后,系统返回文件系统中所有记录Harness的Pareto前沿。值得注意的是,智能体在整个过程中永远不会看到测试集的结果——它的所有反馈都来自搜索集(Search Set),即用于候选评估和生成改进信号的任务子集。

在实现层面,智能体的行为由一个最小化的领域特定Skill引导。Skill以自然语言描述智能体的角色、目录结构、可用命令和输出格式,同时明确禁止修改的文件类型和不允许的操作(如访问互联网或修改评估代码本身)。这种设计哲学值得玩味:Skill约束输出格式和安全边界,但不约束诊断过程本身。论文作者在附录中分享了宝贵的工程经验——迭代优化Skill文本对搜索质量的影响远大于改变迭代次数或种群大小。事实上,在正式运行之前,通常需要进行几次短进化(3-5次迭代)专门用于调试和精炼Skill。

搜索过程中还有一个精妙的工程细节:Pareto前沿的维护。由于Harness优化本质上涉及多个目标(准确率和上下文成本),Meta-Harness不显式定义单一标量目标函数,而是让智能体在帕累托前沿上自由探索。最终,系统能够产出一系列在不同准确率-成本权衡点上运行的Harness,形成一条平滑的Pareto曲线。这种设计使实践者可以根据部署环境选择最合适的操作点——在资源受限时选择轻量级变体,在精度关键时选择高成本变体——而不是被锁定在单一手工设计的配置上。

4. 实验评估 (Experimental Evaluation)

Meta-Harness的实验设计体现了"在多样领域验证通用原理"的科学方法论。作者选择了三个差异显著的领域——在线文本分类、检索增强的数学推理和Agent编程——来检验同一套Harness搜索框架的适用性。这种跨域验证策略远比单域深耕更具说服力,因为它证明了技术价值不仅来自领域特定的技巧,而是来自Harness优化范式的根本性转变。

在线文本分类实验严格遵循Zhang等人(2025)和Ye等人(2026)建立的设定:LLM逐个接收带标签样本,更新其记忆,并在保留测试集上评估。研究选用了三个以难度和领域多样性著称的数据集:LawBench(从案例描述预测刑事指控,215类)、Symptom2Disease(从症状描述预测疾病,22类)和USPTO-50k(从产品分子预测前体反应物,180类)。基线模型采用GPT-OSS-120B。搜索初始化种群包含零样本、少样本、ACE和MCE等基线Harness,运行20次迭代,每次产生2个候选,总计40个候选Harness。

Harness USPTO S2D Law Avg Acc↑ Ctx↓ (K)
Zero-Shot 12.0 63.2 7.0 27.4 0
Few-Shot(8) 14.0 67.9 21.0 34.3 2.0
Few-Shot(32) 13.0 72.2 21.0 35.4 7.9
Few-Shot(all) 15.0 78.3 29.0 40.8 12.3
MCE† 14.0 83.0 23.0 40.0 28.5
ACE† 16.0 77.8 29.0 40.9 50.8
Meta-Harness 14.0 86.8 45.0 48.6 11.4

上表清晰展示了Meta-Harness在文本分类上的优势。选定的Meta-Harness达到48.6%的准确率,超越ACE 7.7个百分点,超越MCE 8.6个百分点。尤为值得注意的是,这些提升并非来自更多的上下文消耗——恰恰相反,Meta-Harness仅使用11.4K上下文Token,而ACE消耗50.8K,MCE消耗28.5K。这种"更高准确率+更低资源消耗"的组合打破了传统上认为两者必须权衡的直觉,表明自动发现的Harness能够比手工设计更精确地选择和使用上下文信息。

与文本优化方法的直接对比揭示了Meta-Harness的效率优势。在公平比较条件下(相同提议者配置、相同评估预算),Meta-Harness仅用0.1倍的评估次数就达到了最佳文本优化器(OpenEvolve和TTT-Discover)的最终准确率,并持续改进,最终超越它们超过10个百分点。这验证了论文的核心主张:当反馈被压缩为短模板或标量分数时,优化器损失了诊断Harness长时程行为所必需的因果信息。

消融实验(Ablation Study)为理解Meta-Harness成功的关键机制提供了决定性证据。作者比较了三种信息接口条件:仅分数(Scores Only,智能体只能看到先前候选的标量分数)、分数加摘要(Scores+Summary,智能体额外获得LLM生成的执行摘要)和完整Meta-Harness接口(可访问原始执行轨迹)。结果呈现出巨大差距:仅分数条件下,中位数准确率为34.6%,最佳为41.3%;分数加摘要条件下,中位数为34.9%,最佳为38.7%。作为对比,完整Meta-Harness达到50.0%的中位数和56.7%的最佳值——其中位数候选甚至超过了两种消融条件的最佳候选。这一结果强有力地证明,原始执行轨迹是Harness搜索中最关键的信号源,LLM生成的摘要不仅无法弥补缺失信息,还可能因压缩掉诊断细节而造成伤害。

在检索增强数学推理领域,实验设定本身就具有创新性。作者研究了非标准的奥林匹克数学求解设置:为模型配备从大规模语料库中检索示例的能力。这一设置的选择基于一个有道理的预期——数学题的解通常共享可复用的证明模式,因此历史推理轨迹中可能包含有价值的信息。然而,朴素的检索策略往往无法在正确的时间以正确的形式呈现正确的示例,这正是Harness设计能够发挥作用的场景。检索语料库包含超过50万道已解答题目,经过仔细的重复去除和污染检测。搜索在250道奥林匹克难度题目上进行,产生109个候选检索Harness,然后在200道从未见过的IMO级别题目上评估,覆盖GPT-OSS-20B以及四个搜索期间未见过的模型(GPT-5.4-nano、GPT-5.4-mini、Gemini-3.1-Flash-Lite、Gemini-3-Flash)。

Method GPT-5.4n GPT-5.4m Gem-3.1FL Gem-3F GPT-20B Avg.
No Retriever 23.0 28.8 28.6 42.6 47.6 34.1
Dense Retrieval (k=1) 27.1 24.5 31.3 42.3 46.9 34.4
Dense Retrieval (k=5) 31.1 28.3 37.1 47.2 46.7 38.1
Random Few-shot 23.1 24.5 31.0 40.4 41.8 32.2
BM25 Retrieval 30.2 29.2 32.8 46.6 48.9 37.5
Meta-Harness 31.7 30.4 34.9 46.3 50.6 38.8

Meta-Harness发现的检索Harness在所有五个从未见过的模型上都超越了无检索基线,平均提升4.7个百分点。与BM25基线(与Meta-Harness使用相同的底层检索栈)相比,Meta-Harness平均高出1.3个百分点。更引人注目的是,Meta-Harness避免了稠密检索和随机少样本在特定模型上出现的退化现象——稠密检索在GPT-5.4-mini上导致4.3个百分点的倒退,而Meta-Harness在所有模型上都稳定提升。这种跨模型迁移性表明,发现的Harness捕获的是推理策略层面的通用原则,而非与特定模型权重耦合的取巧方案。

TerminalBench-2实验则将Meta-Harness置于最具竞争性的环境中。这是一个评估LLM Agent在89个高难度任务上执行能力的基准,要求长时程自主执行、处理复杂依赖关系并调用领域特定工具。作者从两个强开源基线Terminus2和Terminus-KIRA初始化搜索,在该基准上直接进行搜索和最终评估。尽管这种设定引发了关于过拟合的合理担忧,但作者通过手动检查和正则审计来检测任务特定字符串泄露,并指出该基准本身是公开竞争的前沿——多个团队直接在其上迭代优化Harness。

Harness Auto Pass(%)
Claude Opus 4.6
ClaudeCode × 58.0
Terminus2 × 62.9
Mux × 66.5
Droid × 69.9
TongAgents × 71.9
MAYA-V2 × 72.1
Capy × 75.3
ForgeCode × 81.8
Meta-Harness 76.4
Claude Haiku 4.5
OpenHands × 13.9
ClaudeCode × 27.5
Terminus2 × 28.3
Mini-SWE-Agent × 29.8
Terminus-KIRA × 33.7
Goose × 35.5
Meta-Harness 37.6

在Claude Opus 4.6上,Meta-Harness达到76.4%通过率,超越手工设计的Terminus-KIRA(74.7%),在所有Opus 4.6 Agent中排名第二。在能力较弱的Claude Haiku 4.5上,Meta-Harness的优势更为显著——37.6%的通过率使其超越所有已报告的Haiku 4.5 Agent,包括Goose(35.5%)。考虑到TerminalBench-2是一个有多支团队直接优化的活跃竞争基准,一个自动搜索方法能够达到如此前沿的水平,本身就证明了长时程文本优化循环的巨大潜力。

定性分析进一步丰富了实验的叙事。在TerminalBench-2的搜索轨迹中,智能体前两次迭代将合理的结构修复与Prompt模板修改捆绑在一起,结果都大幅退步。到第三次迭代时,智能体明确推断出退步的共同因素不是结构修复本身,而是Prompt模板的变化——一个经典的混淆因素分离。随后六次迭代中,智能体测试了各种控制流和Prompt修改,发现它们都高度不稳定,最终在第7次迭代转向纯粹增量的环境引导策略,成为运行中最佳候选。这个轨迹生动地展示了文件系统访问如何使智能体能够从失败中进行因果推理、修订假设并调整搜索策略。

泛化性实验提供了额外的信心。在文本分类中,Meta-Harness发现的Harness在9个从未见过的多样化数据集上平均准确率73.1%,超越ACE(70.2%)2.9个百分点,且在6/9个数据集上表现最佳。这种跨数据集迁移表明Harness捕获的是通用的文本分类策略,而非对搜索用数据集的过拟合。

5. 案例研究 (Case Studies)

深入分析Meta-Harness发现的具体Harness,能够更直观地理解这项工作的技术贡献和发现机制的本质。论文在附录中提供了三个代表性领域的详细Harness解剖,其中最富启发性的是文本分类和TerminalBench-2的案例。

文本分类领域展现了Meta-Harness发现的一个策略家族而非单一Harness。在Pareto前沿上存在多个非支配变体,从最低上下文消耗的"草案验证"(Draft Verification)到最高准确率的"标签引导查询锚定"(Label-Primed Query Anchored),它们共享相同的记忆基础设施,但在控制流层面呈现出精妙的多样性。

草案验证Harness将预测转化为一个两调用程序。在第一阶段,它检索5个最相似的已标注示例并做出草案预测。在第二阶段,它基于该草案标签重新查询记忆库,检索5个支持相同标签的"确认者"(Confirmers)和5个不同标签的"挑战者"(Challengers),然后让模型决定是否维持或修正初始答案。这一设计的精髓在于第二阶段的检索条件同时依赖于查询和草案预测,因此能够针对性地呈现与模型当前猜测直接相关的反例,而非仅仅展示通用的近邻。当已积累样本不足5个时,程序优雅地回退到标准单调用少样本Prompt。由于两次调用都使用短检索上下文,整体上下文成本保持在Pareto前沿的低端。

标签引导查询锚定Harness则代表了另一极端——单次大调用策略。它构建的Prompt包含三个精心编排的部分:首先是一个标签引导器(Label Primer),列出所有有效输出标签,让模型在接触任何示例前先看到完整的答案空间;然后是一个覆盖块(Coverage Block),为每个已知标签检索与当前查询最相关的示例,确保各类别都有代表;最后是对比块(Contrastive Block),构建高度相似但标签不同的示例对,暴露当前查询附近的局部决策边界。这一Harness使用TF-IDF检索和查询锚定配对规则,而非简单的标签无关近邻检索,其设计哲学是:不仅展示"相似的例子是什么",更展示"在查询附近,边界在哪里"。

数学检索Harness揭示了另一个层次的复杂性。它是一个紧凑的四路线BM25程序,通过轻量级词汇路由(基于关键词集和少量正则特征)将每个问题分配到组合数学、几何、数论或默认(代数及其他)路线之一。每个路线拥有独立的检索策略——组合数学路线获取20个候选,去重到8个,然后按词汇分数和难度重排序,最终保留3个;几何路线则偏好原始结构匹配而非难度重排序,返回1个高难度参考和2个原始BM25邻居;数论路线在重排序时额外青睐那些早期就明确陈述解题技巧的案例;默认路线则根据顶部检索分数的集中度自适应决定返回示例数量。最值得注意的是,最终Harness是两个成功搜索谱系的自主合并——一个贡献了更强的几何路线,另一个贡献了更强的组合数学路线。这种自发组合是元级搜索的直接产物,而非人类事后设计。

TerminalBench-2的发现故事最为简洁却影响深远。Meta-Harness在Terminus-KIRA基础上发现的核心改进是环境引导(Environment Bootstrap):在Agent循环开始前,运行一个复合Shell命令收集沙箱环境快照(工作目录、/app内容、可用语言及版本、包管理器、可用内存),并将其注入初始Prompt。智能体在搜索日志中记录的假设是:"向初始Prompt注入环境快照将在依赖密集型任务上减少3-5个浪费的探索轮次。"结果证实了这一假设——该Harness在7/89个任务上获得提升,最大改进出现在蛋白质组装和路径追踪等任务上,这些任务的共同特征是需要无法预先假设存在的领域特定工具。没有引导时,Agent在前2-4轮中探测环境;而在轮次预算紧张或早期错误假设会级联放大的任务中,这些浪费的轮次可能就是通过与否的分界线。

这些案例共同揭示了一个深层规律:Meta-Harness发现的Harness不是更复杂的Prompt模板,而是具有非平凡控制流的结构化、领域特定策略——它们包含路由、过滤、条件上下文构造和自适应决策。这些策略完全由搜索集性能选择,而非人类事后解释,却在检查时可读且可理解。这种"由搜索发现、由人类理解"的特性,使Meta-Harness的产物兼具自动化发现的深度和可解释性的优势。

6. 综合价值与局限 (Synthesis — Value and Limitations)

Meta-Harness在理论和实践两个层面都提出了值得深入反思的价值命题。从理论角度看,它代表了一种范式的转换:将Harness从手工设计的人工制品转变为代码空间中可搜索、可优化的对象。这一转换的影响超越了具体的技术指标——它提供了一套新的概念工具来思考LLM系统的构建方式。当我们将Harness视为可优化的程序时,"好的Harness"这一原本模糊、依赖专家直觉的概念,获得了形式化的定义(最大化期望奖励)和可操作的发现过程(外层循环搜索)。这种概念工具使研究者能够更系统地研究Harness设计空间的结构,例如探索哪些类型的控制流在哪些任务域中最有效。

在实践层面,Meta-Harness的潜在应用场景广泛。对于需要快速部署领域特定LLM系统的团队,Meta-Harness提供了一种在数小时内自动发现高性能Harness的能力,产物是可读、可移植的源代码。对于模型提供商,Meta-Harness发现的策略可以跨模型迁移——论文展示了在数学推理中,同一检索Harness在五个从未见过的模型上都带来稳定提升,包括未来可能出现的更强模型。这种前向兼容性在快速迭代的AI领域尤为珍贵。此外,代码空间中的过拟合比权重空间中的过拟合更可检查——脆弱的if-else链条或硬编码类别映射在代码审查中一目了然,而权重空间中的过拟合则隐藏在高维参数中。

然而,诚实的评估要求我们正视这项工作的局限性。最突出的局限是实验范围:论文仅使用了一个编码智能体提议者(Claude Code with Opus-4.6),而不同智能体在诊断能力、代码理解和搜索策略上的差异可能显著影响结果。一个更广泛的跨智能体研究尚未开展。其次,Meta-Harness的计算成本虽然"几小时墙钟时间"对于研究场景可接受,但对于需要频繁重新优化 Harness 的生产环境可能仍显昂贵。第三,当前实验集中在单文件Python程序,更复杂的多模块架构或需要调用外部API和数据库的Harness是否适用,尚待验证。第四,尽管论文采取了多种措施防止过拟合(测试集隔离、Pareto前沿选择、正则审计),在TerminalBench-2这种直接搜索的设定下,一定程度的基准特定优化几乎不可避免——虽然作者辩称自主完成困难长时程任务是核心能力,但这仍是需要警惕的局限性。

从更广阔的学术视角审视,Meta-Harness呼应了机器学习领域一个反复出现的主题。正如Sutton(2019)在"苦涩的教训"中所论述的,一旦某个搜索空间变得足够可访问,利用计算的通用方法最终会超越内置人类知识的手工方法。Meta-Harness的贡献在于将这一原则具体化到了Harness工程领域,并展示了如何通过丰富的诊断性反馈(而非仅仅标量奖励)使通用编码智能体能够在这个搜索空间中有效运作。它既开启也关闭了一些研究方向:它开启了Harness与模型权重的协同进化可能性——如果Harness可以通过搜索优化,那么让Harness策略塑造模型学习、让模型能力反过来扩展可搜索Harness空间的协同进化框架将成为激动人心的下一步。同时,它在某种程度上"关闭"了纯粹手工Harness工程的方向——论文的结果表明,即使在最具竞争力的手工优化基准上,自动化方法也能达到或超越人类专家。

7. 延伸阅读与思考 (Further Reading and Reflection)

要深入理解Meta-Harness的学术定位,需要将其置于几个相关的研究脉络之中。在Harness设计和上下文管理领域,Agentic Context Engineering(ACE, Zhang et al., 2025)和Meta Context Engineering(MCE, Ye et al., 2026)代表了当前手工设计Harness的前沿。ACE通过反思性记忆策展随时间构建上下文,MCE则维护和演化自然语言技能库以支持上下文构造。Meta-Harness直接超越了这些方法,但正是它们为搜索提供了起点和基准,证明了Harness工程的巨大潜力。在文本优化领域,GEPA(Agrawal et al., 2025)是反馈丰富度上最接近Meta-Harness的方法,它提供候选的 rollout 轨迹用于提示优化。然而,GEPA是为短反馈循环任务设计的,固定格式的反思模板必须预先猜测哪些信息是相关的;Meta-Harness通过文件系统访问和智能体自主选择,将这一限制彻底解除。

在可执行代码搜索领域,AlphaEvolve(Novikov et al., 2025)和OpenEvolve(Sharma, 2025)通过LLM引导的变异进化代码,但它们面向的是状态less函数优化(数学猜想、调度启发式),变异策略固定,反馈窗口仅4-22K Token。Meta-Harness与之形成对照:它优化的是有状态程序,允许智能体在程序语义层面自由重写,反馈窗口可达百万Token量级。在Prompt编排框架领域,DSPy(Khattab et al., 2023)、LangChain(Chase, 2022)等系统提供了声明式或模块化的LLM程序组合接口,使Prompt工程更系统化,但仍主要依赖人工设计检索策略和编排逻辑。Meta-Harness在这些框架之上运作了一个更底层的搜索层:它搜索的不是如何调用LLM,而是LLM被调用时看到什么。

这项工作开启的未来方向令人遐想。最直接的是Harness与模型权重的协同进化:让Harness策略影响训练数据的选择和损失函数的设计,同时让改进后的模型能力反过来支持更复杂的Harness搜索。另一个方向是开放更广泛的提议者研究:不同编码智能体(如GPT-4 with Code Interpreter、Gemini with tool use)在Harness搜索中的表现如何?它们的优势和失败模式有何不同?在更理论性的方向上,Harness设计空间的"可搜索性"本身值得研究:是什么结构特性使某些领域的Harness更容易通过搜索发现?能否构建Harness设计的元理论来预测哪些任务域最能从自动搜索中获益?

这一领域最深的未解挑战或许是Harness与底层模型能力的根本耦合关系。一个Harness之所以有效,是因为它补偿或利用了特定模型的能力边界和失败模式。当模型升级时,最优Harness可能随之改变。那么,能否设计一种元学习机制,使Harness能够快速适应模型变化,而非从头重新搜索?Meta-Harness展示的在多个未见模型上的迁移性是一个鼓舞人心的初步信号,但这与真正的"模型自适应Harness"之间仍有距离。

最令人深思的或许是这一工作对AI系统构建哲学的启示。Meta-Harness暗示,LLM系统的最优形态可能不是"一个巨大模型处理一切",而是"一个精巧的Harness引导模型有效利用外部资源和自身能力"。在这个视角下,Harness不是模型的附属品,而是与模型并列的系统组件——甚至可以说,Harness是"模型的操作系统",负责内存管理、输入输出调度和任务编排。当我们可以自动搜索和优化这个操作系统时,LLM系统的进化路径就从单纯扩大模型规模,扩展到了系统层面的协同优化。这一视角的转变,可能比任何具体的技术改进都更具深远影响。

Topics:

Powered by Forestry.md