Stop Comparing LLM Agents Without Disclosing the Harness
基本信息
- 标题: Stop Comparing LLM Agents Without Disclosing the Harness
- 第一作者: Yunbei Zhang (Tulane University)
- 研究团队: tulane_university, rutgers_university, virginia_tech
- 会议/期刊: arXiv preprint arXiv:2605.23950, 2026
- 代码: (未在论文中明确提供)
- PDF 文件: [Stop Comparing LLM Agents Without Disclosing the Harness](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260529_stop_comparing_llm_agents_without_disclosing_harness.pdf)
研究摘要
在大型语言模型(LLM)agent 评估领域,一个根深蒂固却长期被忽视的结构性问题正逐渐浮出水面:当研究者和实践者在 leaderboard 上比较不同模型的性能时,他们往往默认这些分数完全由模型的能力决定,却忽略了包裹在模型之外的执行 harness(execution harness)——即负责上下文构建、工具调用编排、输出验证和错误恢复的软件基础设施层——对性能的决定性影响。Zhang 等人在这篇立场论文(position paper)中提出了一个颇具冲击力的论断,即他们称之为 "Binding Constraint Thesis" 的核心命题:在长程任务(long-horizon tasks)上,且当比较的模型处于相近的前沿能力水平时,harness 的配置变化所产生的性能方差往往与模型替换产生的方差相当,甚至远超后者。这意味着当前主流的 agent 评估协议系统性地将 harness 层面的增益错误归因于模型本身的进步,从而扭曲了研究方向的分配、误导了产品决策,并使得跨论文的模型比较在方法论上缺乏有效性。
这一命题的提出并非空穴来风。作者首先指出,从 SWE-bench 到 Terminal-Bench 再到 GAIA,几乎所有主流 benchmark 都将 agent 性能呈现为单一的 {模型, benchmark} 配对分数,仿佛 harness 是透明的、可忽略的常数。然而实证证据恰恰相反:在 Terminal-Bench 2.0 上,仅更换 harness 就能使同一模型的 pass@1 从 69.7% 跃升至 77.0%(提升 7.3 个百分点);在 SWE-bench Verified 上,第三方独立监测报告显示仅 scaffold 差异就带来高达 15 个百分点的波动。更为关键的是,在 SWE-bench Pro 上,添加一个搜索子代理(WarpGrep)就能翻转 MiniMax 2.5 与 Claude Opus 4.6 的排序,而这两个模型在大多数其他 benchmark 上的排名关系恰好相反。这些案例表明,harness 不仅是性能方程中的一个因子,而且在很多情境下是主导方差来源的因子。
论文的理论贡献在于将这一经验观察提升为系统性的控制论框架。作者将 agent 执行过程形式化为离散时间的闭环动态系统(closed-loop dynamical system),其中 harness 充当控制器(controller)
在实证层面,作者通过两类证据加固了这一理论立场。第一类是观察性数据,从 Morph leaderboard、Holistic Agent Leaderboard(HAL)、EpochAI 的监测报告以及多个行业部署案例中,系统性地展示了 harness 导致的方差(harness variance, HV)可以数倍于模型导致的方差(model variance, MV)。第二类是作者自行设计的控制实验:在 SWE-bench Verified 的 100 任务子集上,对三个前沿模型(GPT-5.4、Kimi K2.6、GLM-5.1)分别施加三种从 Minimal 到 Full 的 harness 配置,结果显示平均 HV 为 18.48 pp²,而平均 MV 仅为 2.37 pp²,HV/MV 比率达到惊人的 7.80 倍。在 9 组可能的模型对/ harness 对比较中,有 6 组发生了排名翻转(ranking reversal),直接挑战了 "模型排序在任意 harness 下都保持稳定" 的隐含假设。
最后,论文提出了一个完整的 harness-aware 评估框架,包含三个相互支撑的组件:Harness Card(结构化披露卡)、方差分解协议(variance decomposition protocol)和轨迹级指标(trajectory-level metrics)。Harness Card 基于 ETCSOVG 七层分类法(Execution、Tool、Context、Scheduling、Observability、Verification、Governance),要求每个 benchmark 提交方详细披露 harness 的每一层配置。方差分解协议则要求评估设计至少包含两个模型和两个 harness 的交叉网格,以分离 MV、HV 和交互项。轨迹级指标——恢复率(Recovery Rate)、上下文保留率(Context Retention)和控制滞后(Control Lag)——将聚合的 pass@1 分数拆解为可诊断的 controller 属性,使得性能差异可以被归因到具体的 harness 层而非笼统地归因于模型。
这篇论文的潜在影响是深远的。它不仅对 agent 评估的方法论提出了根本性的修正,也对整个 AI 研究生态中的激励机制提出了尖锐的批评:当数十亿美元的研究投入和论文发表方向被误导至模型优化时,真正产生更大性能方差的 harness 工程却得不到与其影响相称的学术关注和资源配置。作者的立场是,如果 harness 规格未被披露,长程 agent 的 leaderboard 比较就应被视为不完整且可能具有误导性的——这相当于对当前 agent 评估实践的一种方法论上的 "不信任投票"。
理论框架
这篇论文的理论核心在于将 agent 执行的认知框架从 "推理框架"(inference framing)转向 "控制框架"(control framing)。在推理框架中,agent 被理解为一个模型在 while 循环中运行,性能的好坏被完全归因于模型
控制框架将 harness 重新定位为闭环系统的控制器(controller)
从这一控制论视角出发,论文定义了三项决定长程可靠性的结构性量:稳定性(Stability)、上下文漂移(Context Drift)和控制滞后(Control Lag)。稳定性被定义为 Lyapunov-like 测度
Binding Constraint Thesis 的理论表述为:在可比较的前沿模型上评估长程任务时,定义
该命题认为,第二项和第三项之和支配第一项。这一分解成为论文的方法论核心,因为它将 harness 问题从定性的工程观察转化为可量化的方差分析问题。锁定 harness 协议(locked-harness protocol)通过固定
该命题的适用范围被审慎地限定在长程任务和可比较的前沿模型上。长程意味着需要多步工具使用、错误恢复和上下文管理的任务,因为只有在这种情境下闭环可靠性量才有机会发挥作用。可比较前沿模型则意味着模型能力差距不至于大到 MV 机械性地主导所有 harness 配置。作者坦诚地指出,该命题在短程任务或能力差距悬殊的模型对之间不成立,这种审慎的界定增强了命题的可证伪性和科学严谨性。事实上,作者明确给出了证伪条件:如果一个因子实验在固定模型下变化
技术架构
这篇立场论文虽然没有提出一个需要从零实现的新算法系统,但其技术架构的核心在于将一个抽象的理论框架(控制论视角)转化为可操作的评估工程实践。整个架构可以被视为一个三层评估基础设施:概念层(将 agent 执行映射为闭环控制系统)、协议层(定义 Harness Card 和方差分解实验设计)以及指标层(将抽象的可靠性量操作化为可计算的轨迹级度量)。这三层共同构成了一套完整的 "harness 感知" 评估体系,使得原本被隐藏在单一 benchmark 分数背后的 harness 效应变得可见、可量化和可诊断。
概念层的技术架构围绕控制论的形式化展开。作者将 harness 定义为七个功能层(ETCSOVG 分类法):执行层(Execution,包括运行时的沙箱环境、步骤和任务预算)、工具层(Tool,包括工具列表、模式定义和错误契约)、上下文层(Context,包括窗口上限、压缩和检索策略、持久化记忆)、调度层(Scheduling,包括 agent 循环、重试和升级规则)、可观测层(Observability,包括日志记录和轨迹追踪)、验证层(Verification,包括验证、自检和异常检测)和治理层(Governance,包括权限模型、副作用边界和人工审批点)。这七层分类并非简单的功能清单,而是与控制论三项可靠性量建立了明确的映射关系:上下文层的设计直接决定上下文漂移
协议层的技术架构设计了一个最小有效的实验网格:2×2 的模型-by-harness 交叉设计,其中任务顺序、执行环境、评估脚本、API 参数和停止规则保持恒定。作者强调,harness 差异必须是 "有意义的",即至少在 ETCSOVG 的一层上做出预期会影响稳定性、漂移或滞后的改变,例如引入基于检索的上下文压缩、修改工具模式和错误格式、或添加验证和恢复钩子。这种设计要求将 harness 变更从随意的工程调整提升为受控的实验因素。对于设计的
指标层的技术架构则开发了三个轨迹级度量,将抽象的可靠性量转化为可审计的代理指标。恢复率(Recovery Rate, RR(k))将稳定性操作化为从检测到的异常状态(工具错误、畸形输出、验证失败、被拒绝的补丁)回到任务推进状态的概率,并以
在实现细节上,作者的控制实验使用了 SWE-bench Verified 的难度分层 100 任务子集,三个前沿模型(GPT-5.4、Kimi K2.6、GLM-5.1),以及三种 harness 配置。
实验评估
论文的实验设计体现了从观察性证据到控制实验的递进策略,这种策略选择本身反映了作者对因果推断的审慎态度。在观察性层面,作者系统性地汇总了来自公开 leaderboard、第三方监测报告和行业部署案例的实证数据,构建了一个全面的 harness 效应图谱。而在控制实验层面,作者设计了一个严格的 3×3 因子网格,以分离和量化 HV 与 MV 的相对大小。这种双层证据结构使得论文的立场不仅建立在广泛的案例观察之上,还通过受控的实验设计得到了因果层面的支持。
观察性证据的收集范围令人印象深刻。在 SWE-bench Pro 的标准化 SEAL scaffold 下,六个领先的前沿模型仅跨越 4.9 个百分点(41.0% 到 45.9%),但将 Claude Opus 4.5 固定并仅更换 harness(从 SEAL 到 Claude Code)就能产生 9.5 个百分点的差距(45.9% 到 55.4%)。在 SWE-bench Verified 上,Grok 4 从 SWE-agent 切换到 xAI scaffold 产生了 14-16 个百分点的跃升。Terminal-Bench 2.0 上的证据更为极端:同一模型仅通过提示词+中间件+验证层的变更,pass@1 从 52.8% 提升到 66.5%(+13.7pp);通过自动化 harness 优化(AHE)从 69.7% 提升到 77.0%(+7.3pp);Vercel 的部署案例显示将 15 个工具减少到 2 个工具,成功率从 80% 提升到 100%。这些数据的系统性呈现揭示了一个不容忽视的模式:harness 层的变化 routinely 达到 2-4 个百分点(论文中常被视为有意义的模型进步的阈值)的数倍。HAL 的报告显示,在 SWE-bench Verified Mini 上,同一模型在不同 scaffold 下的差距高达近 48 个百分点,远超任何单个 scaffold 内的跨模型差距。EpochAI 的独立监测报告进一步证实,在 SWE-bench Verified 上,GPT-5 的 scaffold-only 波动高达 11 个百分点,Kimi K2 Thinking 高达 15 个百分点。这些观察性数据虽然无法孤立单一 harness 组件的效应,但共同构成了一个令人信服的总体图景:harness 方差是真实存在的,并且规模巨大。
控制实验的设计是论文方法论的亮点。在 SWE-bench Verified 的 100 任务子集上,三个模型(GPT-5.4、Kimi K2.6、GLM-5.1)和三种 harness 配置(
| 模型 / Harness | HV(M) | |||
|---|---|---|---|---|
| GLM-5.1 | 52.5 | 56.5 | 65.5 | 29.56 |
| GPT-5.4 | 55.0 | 58.5 | 63.5 | 12.17 |
| Kimi K2.6 | 52.0 | 59.0 | 60.5 | 13.72 |
| MV(H) | 1.72 | 1.17 | 4.22 | — |
平均 HV 为 18.48 pp²,平均 MV 为 2.37 pp²,HV/MV 比率为 7.80×。更换 harness 使 GLM-5.1 移动了 13.0 个百分点,GPT-5.4 和 Kimi K2.6 各移动 8.5 个百分点;而更换模型在固定 harness 下仅移动 3.0、2.5 和 5.0 个百分点。在 9 组可能的模型对/ harness 对比较中,有 6 组发生了排名翻转。这些数据直接支持了 Binding Constraint Thesis,并且以量化的方式驳斥了 "交互效应小到可以忽略" 的常见反驳。
轨迹日志的深入分析揭示了数字背后的机制。
案例研究
论文中虽然没有像传统技术论文那样提供端到端的 "case study" 段落,但控制实验中的轨迹日志分析实际上包含了大量具体的案例,可以被视为案例研究的素材。作者选取了排名翻转和机制对比的案例来深入阐释 harness 效应的具体运作方式,这些案例为理解抽象的控制论框架提供了生动的经验锚点。
一个典型的案例是
另一个具有洞察力的案例是 WarpGrep 搜索子代理的效应。在 SWE-bench Pro 的 Morph leaderboard 上,添加这一个单一工具就能翻转 MiniMax 2.5 与 Claude Opus 4.6 的排序。这个案例之所以令人警醒,是因为 Claude Opus 4.6 在大多数其他 benchmark 上排名高于 MiniMax 2.5,一个额外的搜索工具的加入就逆转了这一关系。从控制论角度分析,WarpGrep 的加入降低了上下文漂移:它使得模型在需要查找代码库中的相关片段时,不必依赖有限的上下文窗口来 "记住" 所有可能相关的文件路径,而是可以通过工具调用来动态检索。这直接作用于漂移率
从边缘案例的角度看,论文也讨论了当模型能力差距极大时 Binding Constraint Thesis 的失效。例如,如果对比的是一个前沿模型和一个基础模型,后者可能无论 harness 如何优化都无法完成复杂的长程任务。在这种情境下,MV 会机械性地主导 HV,模型方差成为性能差异的主要来源。作者明确将这种情境排除在命题的适用范围之外,这种诚实性增强了论文的可信度。另一个有趣的边缘案例是
综合价值与局限
这篇论文在理论层面提供了一个深刻的概念重构:它将 LLM agent 的可靠性问题从 "模型能力问题" 重新框架为 "控制系统问题"。这一转变的理论意义在于,它将 agent 社区从对模型参数的盲目崇拜中解放出来,将注意力引导到反馈控制、状态管理和异常恢复等工程科学的核心议题上。控制论作为一个有着数十年历史的成熟学科,为 agent harness 的设计提供了丰富的概念工具——从 Lyapunov 稳定性到观测器设计,从极点配置到鲁棒控制——这些工具在当前的 agent 研究中几乎未被触及。论文通过将 harness 形式化为控制器,为将这些经典控制理论引入现代 AI 系统铺平了道路。这种跨学科的概念迁移本身就是一种重要的理论贡献,它可能催生一个新的研究方向:控制论启发的 agent 架构设计。
在实践层面,论文的潜在影响是即时且广泛的。对于 benchmark 设计者,Harness Card 和方差分解协议提供了一套可立即采纳的评估规范。如果 NeurIPS、ICML 或 ICLR 的 agent 评估 track 开始要求提交 Harness Card,那么整个领域的评估质量将显著提升。对于工业界的 agent 部署者,论文提供了强有力的论据来支持对 harness 基础设施的投入:在论文的控制实验中,从
论文的论证也具有显著的方法论优势。作为一篇立场论文,它罕见地结合了形式化数学、控制论理论、大规模观察性数据和严格的控制实验。这种多层次的论证结构使得论文的结论很难被轻易驳斥。作者还主动回应了四个主要反驳:模型扩展将消除 harness 问题、标准化已足够、交互效应可忽略、以及 harness 与模型不可分离。每个反驳都得到了基于实证证据的详细回应,这种 "预反驳" 策略增强了论文的学术严谨性。论文对适用范围(scope)和证伪条件(falsifiability)的明确界定也体现了科学诚实,这在立场论文中并不常见。
然而,论文也存在一些诚实的局限性。首先,其控制实验的样本规模相对较小:100 个 SWE-bench Verified 任务子集,三个模型,三种 harness 配置。虽然实验结果在统计上显著且方向一致,但 7.80× 的 HV/MV 比率是否能在更广泛的任务分布和模型集合上复现,仍需要更大规模的验证。作者自己也审慎地表示 "我们不声称 7.80× 的比率是普遍的"。其次,harness 的 "有意义差异" 的判定标准带有一定的主观性:实验设计依赖于研究者对哪些 harness 变更会影响稳定性、漂移或滞后的先验判断。在更复杂的 agent 系统中,harness 层之间的交互可能使得这种单一层的映射变得模糊。第三,论文主要聚焦于软件工程类 agent(coding agents),其结论在视觉 agent、机器人 agent 或对话 agent 等其他领域的外推有效性需要进一步验证。第四,论文提出的轨迹级指标(Recovery Rate、Context Retention、Control Lag)虽然理论上优雅,但在实际操作中可能面临测量成本高昂的问题:对 100 个任务的轨迹进行逐步骤的异常检测和状态标注需要大量的人工审查或高度可靠的自动标注工具。最后,Harness Card 的披露要求在实践中可能遇到阻力:商业 agent 平台可能将 harness 设计视为竞争壁垒,不愿完全披露其内部机制。论文对此的回应是 "披露标准与锁定 harness 协议并行存在",但这并未解决商业激励与学术透明度之间的根本张力。
延伸阅读与思考
这篇论文构建在一个日益增长的学术共识之上:agent 的性能不能仅归因于模型本身,而必须考虑系统层面的基础设施。在这一脉络中,最值得回顾的先驱性工作包括 Yao 等人(2022)的 ReAct,它将推理和行动视为耦合系统,为后来的控制论视角奠定了基础;Wang 等人(2024)的 OpenHands 展示了开放式 agent 平台中 harness 设计的复杂性;以及 Rajasekaran(2026)和 Martin 等人(2026)的行业实践报告,它们从部署角度证实了 harness 与模型解耦的必要性。在 harness 优化方向,Hu 等人(2024)的 ADAS 搜索 agentic 系统、Lee 等人(2026)的 Meta-Harness 和 Lou 等人(2026)的 AutoHarness 通过外循环搜索优化 harness 代码,而 Zhang 等人(2026)的 Agentic Context Engineering 则将上下文构建作为独立优化面。这些工作共同构成了论文的实证基础,但它们各自回答的是 "如何使 harness 更好",而非 "如何正确归因性能增益"——这正是论文的独特贡献所在。
在相关方法论的讨论中,Kapoor 等人(2025)的 Holistic Agent Leaderboard(HAL)和 Deng 等人(2025)的 SWE-bench Pro 统一 scaffold 代表了锁定 harness 协议的实际尝试。论文对这种尝试持部分支持态度,但指出任何标准化 harness 都嵌入了与模型属性交互的设计选择,并且锁定了 harness 可能扼杀 harness 层面的创新。这种对标准化优缺点的辩证分析是论文最具政策相关性的部分。Ge 等人(2026)的 Agent Psychometrics 从项目反应理论(item-response theory)角度分解 agent 能力,其 leaderboard 分析也得出了与论文一致的定性结论,即 scaffold 方差大于 LLM 能力方差。这种来自不同方法论路线的趋同发现,为 Binding Constraint Thesis 提供了独立的外部验证。
从未来研究方向来看,这篇论文至少开启了四条值得深入探索的路径。第一是 harness 距离的公理化定义:论文指出,需要一个关于 harness 配置之间距离的 principled notion,否则
最深刻的开放问题可能是:当 harness 成为性能的主要决定因素时,"模型能力" 这一概念本身是否需要重新定义?如果同一模型在不同 harness 下可以表现差异巨大,那么 "模型能力" 是否应被理解为一种潜在能力(latent capability),仅在特定 harness 配置下才被实现(actualized)?这类似于心理学中 "能力-表现"(competence vs. performance)的区分,但在 AI 评估中尚未被系统性地引入。论文的框架暗示,agent 评估的对象应当是 {模型, harness} 的耦合系统,而非孤立的模型。这种本体论上的转变可能对 AI 安全研究产生深远影响:如果模型的 "危险能力" 高度依赖于 harness 的激活条件,那么仅仅评估模型权重中的潜在危险可能是不充分的。
个人而言,这篇论文最令人深思的洞见在于它揭示了一种系统性的认知偏差:我们倾向于将可见的、可量化的因素(模型参数、训练数据量)视为因果上的主导因素,而将系统性、基础设施性的因素(harness、反馈结构)视为背景噪音。这种偏差不仅在 AI 研究中存在,在所有工程领域中都普遍存在。论文提醒我们,在复杂系统的评估中,最需要关注的往往是最不显眼的基础设施层。这正是 "Binding Constraint" 一词的深层隐喻:系统的整体性能受限于最紧的约束,而当前最紧的约束可能不是模型,而是我们设计来驾驭模型的 harness。
Topics:
- "agent_architecture"
- "evaluation"
- "llm"
- "multi_agent_systems"
- "reasoning"
References: - "tulane_university"
- "rutgers_university"
- "virginia_tech"
阅读方式: L2 深度阅读