Stop Comparing LLM Agents Without Disclosing the Harness

基本信息

标题: Stop Comparing LLM Agents Without Disclosing the Harness
第一作者: Yunbei Zhang (Tulane University)
研究团队: tulane_university, rutgers_university, virginia_tech
会议/期刊: arXiv preprint arXiv:2605.23950, 2026
代码: (未在论文中明确提供)
PDF 文件: [Stop Comparing LLM Agents Without Disclosing the Harness](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260529_stop_comparing_llm_agents_without_disclosing_harness.pdf)

研究摘要

在大型语言模型（LLM）agent 评估领域，一个根深蒂固却长期被忽视的结构性问题正逐渐浮出水面：当研究者和实践者在 leaderboard 上比较不同模型的性能时，他们往往默认这些分数完全由模型的能力决定，却忽略了包裹在模型之外的执行 harness（execution harness）——即负责上下文构建、工具调用编排、输出验证和错误恢复的软件基础设施层——对性能的决定性影响。Zhang 等人在这篇立场论文（position paper）中提出了一个颇具冲击力的论断，即他们称之为 "Binding Constraint Thesis" 的核心命题：在长程任务（long-horizon tasks）上，且当比较的模型处于相近的前沿能力水平时，harness 的配置变化所产生的性能方差往往与模型替换产生的方差相当，甚至远超后者。这意味着当前主流的 agent 评估协议系统性地将 harness 层面的增益错误归因于模型本身的进步，从而扭曲了研究方向的分配、误导了产品决策，并使得跨论文的模型比较在方法论上缺乏有效性。

这一命题的提出并非空穴来风。作者首先指出，从 SWE-bench 到 Terminal-Bench 再到 GAIA，几乎所有主流 benchmark 都将 agent 性能呈现为单一的 {模型, benchmark} 配对分数，仿佛 harness 是透明的、可忽略的常数。然而实证证据恰恰相反：在 Terminal-Bench 2.0 上，仅更换 harness 就能使同一模型的 pass@1 从 69.7% 跃升至 77.0%（提升 7.3 个百分点）；在 SWE-bench Verified 上，第三方独立监测报告显示仅 scaffold 差异就带来高达 15 个百分点的波动。更为关键的是，在 SWE-bench Pro 上，添加一个搜索子代理（WarpGrep）就能翻转 MiniMax 2.5 与 Claude Opus 4.6 的排序，而这两个模型在大多数其他 benchmark 上的排名关系恰好相反。这些案例表明，harness 不仅是性能方程中的一个因子，而且在很多情境下是主导方差来源的因子。

论文的理论贡献在于将这一经验观察提升为系统性的控制论框架。作者将 agent 执行过程形式化为离散时间的闭环动态系统（closed-loop dynamical system），其中 harness 充当控制器（controller） $C_{H}$ ，而 LLM 则是被该控制器所调度的开环随机策略（open-loop stochastic policy） $π_{θ}$ 。在这一视角下，长程可靠性并非由策略本身的参数规模或预训练质量所决定，而是由控制器的三项核心属性——稳定性（stability）、上下文漂移（context drift）和控制滞后（control lag）——所支配。模型升级固然可以降低异常发生的基线频率，但对异常出现后的响应机制、错误恢复路径和状态更新规则，这些完全属于控制器的设计范畴，并不会因为更换模型而自动改善。换言之，Open-loop 系统不会因为执行器（actuator）变大而变得更可靠，它们需要通过反馈控制（feedback control）来达成可靠性。这一洞见将 harness 问题从工程层面的 "优化技巧" 重新定位为基础性的系统科学问题。

在实证层面，作者通过两类证据加固了这一理论立场。第一类是观察性数据，从 Morph leaderboard、Holistic Agent Leaderboard（HAL）、EpochAI 的监测报告以及多个行业部署案例中，系统性地展示了 harness 导致的方差（harness variance, HV）可以数倍于模型导致的方差（model variance, MV）。第二类是作者自行设计的控制实验：在 SWE-bench Verified 的 100 任务子集上，对三个前沿模型（GPT-5.4、Kimi K2.6、GLM-5.1）分别施加三种从 Minimal 到 Full 的 harness 配置，结果显示平均 HV 为 18.48 pp²，而平均 MV 仅为 2.37 pp²，HV/MV 比率达到惊人的 7.80 倍。在 9 组可能的模型对/ harness 对比较中，有 6 组发生了排名翻转（ranking reversal），直接挑战了 "模型排序在任意 harness 下都保持稳定" 的隐含假设。

最后，论文提出了一个完整的 harness-aware 评估框架，包含三个相互支撑的组件：Harness Card（结构化披露卡）、方差分解协议（variance decomposition protocol）和轨迹级指标（trajectory-level metrics）。Harness Card 基于 ETCSOVG 七层分类法（Execution、Tool、Context、Scheduling、Observability、Verification、Governance），要求每个 benchmark 提交方详细披露 harness 的每一层配置。方差分解协议则要求评估设计至少包含两个模型和两个 harness 的交叉网格，以分离 MV、HV 和交互项。轨迹级指标——恢复率（Recovery Rate）、上下文保留率（Context Retention）和控制滞后（Control Lag）——将聚合的 pass@1 分数拆解为可诊断的 controller 属性，使得性能差异可以被归因到具体的 harness 层而非笼统地归因于模型。

这篇论文的潜在影响是深远的。它不仅对 agent 评估的方法论提出了根本性的修正，也对整个 AI 研究生态中的激励机制提出了尖锐的批评：当数十亿美元的研究投入和论文发表方向被误导至模型优化时，真正产生更大性能方差的 harness 工程却得不到与其影响相称的学术关注和资源配置。作者的立场是，如果 harness 规格未被披露，长程 agent 的 leaderboard 比较就应被视为不完整且可能具有误导性的——这相当于对当前 agent 评估实践的一种方法论上的 "不信任投票"。

理论框架

这篇论文的理论核心在于将 agent 执行的认知框架从 "推理框架"（inference framing）转向 "控制框架"（control framing）。在推理框架中，agent 被理解为一个模型在 while 循环中运行，性能的好坏被完全归因于模型 $π_{θ}$ 的内在能力。模型被期望通过更大的参数量、更好的预训练数据或更精细的微调来 "学会" 如何可靠地完成长程任务。这种框架隐含了一个假设：agent 的认知负荷——包括上下文管理、错误识别、工具调用和恢复策略——最终都会被模型的权重所吸收。然而，论文作者指出，这一框架在根本上误解了 agent 系统的结构：LLM 本质上是一个开环（open-loop）的随机策略，它不具备跨步骤的状态感知、自校正机制或长期记忆维护能力，而这些恰恰是在长程执行中维持可靠性的必要条件。

控制框架将 harness 重新定位为闭环系统的控制器（controller） $C_{H}$ 。在这个形式化描述中，agent 的状态 $s_{t}$ 在时间步 $t$ 包含完整的上下文窗口和任何持久化记忆。LLM 根据 harness 提供的上下文投影 $c (s_{t})$ 生成动作 $a_{t} \sim π_{θ} (\cdot ∣ c (s_{t}))$ ，而 harness 则根据环境观察 $o_{t}$ 更新状态到 $s_{t + 1}$ 。这里的关键非对称性在于：LLM 没有直接访问 $s_{t}$ 的权限，它只能看到 $c (s_{t})$ ，即 harness 选择暴露给它的状态子集；LLM 在步骤之间不保留任何超出 $C_{H}$ 注入到 $c (s_{t + 1})$ 中的记忆；LLM 也没有任何自校正机制，其反馈路径完全由 $C_{H}$ 从 $o_{t}$ 构建。因此，适应性（adaptation）、错误恢复（error recovery）和长程一致性（long-horizon coherence）都是 $C_{H}$ 的属性，而非 $π_{θ}$ 的属性。这一观点将 agent 研究从将推理、行动和接口视为耦合系统（coupled system）的学术传统（如 ReAct 等）中进一步抽象出来，强调了控制层与策略层的分离。

从这一控制论视角出发，论文定义了三项决定长程可靠性的结构性量：稳定性（Stability）、上下文漂移（Context Drift）和控制滞后（Control Lag）。稳定性被定义为 Lyapunov-like 测度 $V (s_{t}) = d (s_{t}, Ω^{*})$ 在控制器更新规则下的期望非增性，其中 $Ω^{*}$ 是目标一致状态集， $d$ 是任务特定的距离测度。形式化地： $E [V (s_{t + 1}) ∣ s_{t}] \leq V (s_{t})$ 对所有 $t$ 成立。当这一条件被违反时，系统进入不稳定状态，表现为幻觉螺旋（hallucination spirals）、上下文溢出（context overflow）和执行失控（execution runaway）——这些现象在当前的 agent 实践中极为常见，但通常被归因于模型本身，而非控制器的故障。上下文漂移 $δ_{t} = D_{K L} (p_{t} ∥ p_{0})$ 则是当前上下文窗口嵌入分布与初始任务相关状态分布之间的 KL 散度，衡量任务相关信息被保留的程度。高漂移率 ${\dot{δ}}_{t} = δ_{t} - δ_{t - 1}$ 意味着控制器未能有效管理上下文窗口，导致任务被逐渐遗忘或语义不一致。最后，控制滞后 $τ = t_{c} - t_{d}$ 定义了从异常检测（步骤 $t_{d}$ ）到修正信号到达策略（步骤 $t_{c}$ ）之间的步数间隔。高滞后意味着策略在异常发生后仍会在错误状态下继续运行 $τ$ 步，从而加剧损害。这三项量全部属于 $C_{H}$ 的设计空间，与 $π_{θ}$ 的参数无关，构成了 harness 方差 HV 的结构性来源。

Binding Constraint Thesis 的理论表述为：在可比较的前沿模型上评估长程任务时，定义 $B (M, H)$ 为模型 $M \in M$ 在 harness $H \in H$ 下的 benchmark 分数。令 $H V (M) = {Var}_{H \sim P (H)} [B (M, H)]$ 为模型固定时的 harness 方差， $M V (H) = {Var}_{M \sim P (M)} [B (M, H)]$ 为 harness 固定时的模型方差。则该命题断言： $H V$ 通常与 $M V$ 相当或更大，且可能主导当前的长程 agent 评估。总方差可以精确分解为：

Var [B (M, H)] = \underset{M V}{\underset{⏟}{{Var}_{M} [E_{H} [B (M, H)]]}} + \underset{H V}{\underset{⏟}{{Var}_{H} [E_{M} [B (M, H)]]}} + \underset{interaction}{\underset{⏟}{Var [model \times harness]}}

该命题认为，第二项和第三项之和支配第一项。这一分解成为论文的方法论核心，因为它将 harness 问题从定性的工程观察转化为可量化的方差分析问题。锁定 harness 协议（locked-harness protocol）通过固定 $H = H^{*}$ 恢复一个干净的模型排序，但只在特定的 $H^{*}$ 下有效；而因子协议（factorial protocol）则通过设计 ${M_{i}} \times {H_{j}}$ 网格，同时报告 HV、MV、交互项和排名翻转数，从而支持交互分析。

该命题的适用范围被审慎地限定在长程任务和可比较的前沿模型上。长程意味着需要多步工具使用、错误恢复和上下文管理的任务，因为只有在这种情境下闭环可靠性量才有机会发挥作用。可比较前沿模型则意味着模型能力差距不至于大到 MV 机械性地主导所有 harness 配置。作者坦诚地指出，该命题在短程任务或能力差距悬殊的模型对之间不成立，这种审慎的界定增强了命题的可证伪性和科学严谨性。事实上，作者明确给出了证伪条件：如果一个因子实验在固定模型下变化 $H$ 、在固定 harness 下变化 $M$ ，并发现 $M V > H V$ ，则该命题将被证伪。这种将立场论文建立在可证伪经验命题之上的做法，在方法论上颇为罕见，也体现了作者对科学规范的尊重。

技术架构

这篇立场论文虽然没有提出一个需要从零实现的新算法系统，但其技术架构的核心在于将一个抽象的理论框架（控制论视角）转化为可操作的评估工程实践。整个架构可以被视为一个三层评估基础设施：概念层（将 agent 执行映射为闭环控制系统）、协议层（定义 Harness Card 和方差分解实验设计）以及指标层（将抽象的可靠性量操作化为可计算的轨迹级度量）。这三层共同构成了一套完整的 "harness 感知" 评估体系，使得原本被隐藏在单一 benchmark 分数背后的 harness 效应变得可见、可量化和可诊断。

概念层的技术架构围绕控制论的形式化展开。作者将 harness 定义为七个功能层（ETCSOVG 分类法）：执行层（Execution，包括运行时的沙箱环境、步骤和任务预算）、工具层（Tool，包括工具列表、模式定义和错误契约）、上下文层（Context，包括窗口上限、压缩和检索策略、持久化记忆）、调度层（Scheduling，包括 agent 循环、重试和升级规则）、可观测层（Observability，包括日志记录和轨迹追踪）、验证层（Verification，包括验证、自检和异常检测）和治理层（Governance，包括权限模型、副作用边界和人工审批点）。这七层分类并非简单的功能清单，而是与控制论三项可靠性量建立了明确的映射关系：上下文层的设计直接决定上下文漂移 $δ_{t}$ ，验证层和治理层影响稳定性 $V (s_{t})$ ，而可观测层和调度层则共同决定控制滞后 $τ$ 。这种映射使得当观察到 HV 较大时，评估者可以通过查看 Harness Card 的七层披露来定位性能方差的结构性来源。

协议层的技术架构设计了一个最小有效的实验网格：2×2 的模型-by-harness 交叉设计，其中任务顺序、执行环境、评估脚本、API 参数和停止规则保持恒定。作者强调，harness 差异必须是 "有意义的"，即至少在 ETCSOVG 的一层上做出预期会影响稳定性、漂移或滞后的改变，例如引入基于检索的上下文压缩、修改工具模式和错误格式、或添加验证和恢复钩子。这种设计要求将 harness 变更从随意的工程调整提升为受控的实验因素。对于设计的 ${M_{i}} \times {H_{j}}$ 网格，作者建议报告四个统计量：每个模型的 HV 和每个 harness 的 MV、聚合比率 HV/MV、跨 harness 的模型对排名翻转数，以及偏 eta 平方系数 $η_{p}^{2} = \frac{S S_{interaction}}{S S_{interaction} + S S_{error}}$ ，其中 SS 来自固定效应双因素方差分析。作者还审慎地指出了三个方法论注意事项： $η_{p}^{2}$ 是固定效应量，若 harness 从更大总体中抽样则应使用混合效应模型；在小网格中 $η_{p}^{2}$ 存在正偏误，应配合 $ω^{2}$ 或 bootstrap 区间报告；大的交互效应既不是排名翻转的必要条件也不是充分条件，因此应配合显式的翻转计数。这种对统计方法的细致考量体现了论文在评估工程上的严谨性。

指标层的技术架构则开发了三个轨迹级度量，将抽象的可靠性量转化为可审计的代理指标。恢复率（Recovery Rate, RR(k)）将稳定性操作化为从检测到的异常状态（工具错误、畸形输出、验证失败、被拒绝的补丁）回到任务推进状态的概率，并以 $k \in {1, 3, 5, 10}$ 的曲线形式报告，因为 $k$ 的选择在及时性（promptness）与最终恢复（eventual recovery）之间存在权衡。上下文保留率（Context Retention）将上下文漂移操作化为每个步骤中构建上下文里任务相关文件、测试和约束的保留比例，这是一个可审计的代理指标，与 $δ_{t}$ 单调相关。控制滞后（Control Lag, $τ$ ）则被直接测量为从 harness 检测到异常到修正信号通过反馈路径到达策略之间的步数。这三项指标与 Harness Card 的七层形成诊断映射：RR 的变化指向验证和恢复层， $τ$ 的变化指向可观测性和工具层，而上下文保留率的变化指向上下文构建策略层。作者还提出了两个补充诊断指标作为未来社区发展的方向：模式合规率（Schema Compliance Rate），衡量无需 harness 干预即可解析的模型输出比例，以及动作效率（Action Efficiency），衡量生产性任务推进动作与总动作数的比率。这些指标将原本被聚合 pass rate 所掩盖的 controller 机制层差异暴露出来，为 harness 工程提供了可量化的反馈回路。

在实现细节上，作者的控制实验使用了 SWE-bench Verified 的难度分层 100 任务子集，三个前沿模型（GPT-5.4、Kimi K2.6、GLM-5.1），以及三种 harness 配置。 $H_{1}$ （Minimal）是无上下文压缩、无重试逻辑、无验证钩子的开环基线； $H_{2}$ （Improved）引入了压缩上下文、最小工具模式和结构化重试； $H_{3}$ （Full）在 $H_{2}$ 基础上增加了每步自检、KL 风格漂移检查、异常检测中间件、完整输出验证和检查点回滚。每个 $(M_{i}, H_{j})$ 单元使用两次独立运行，共享任务顺序、Docker 执行环境、SWE-bench 评估管道、50 步预算和 120 秒每步超时。这种严格的实验控制使得 harness 效应可以被孤立观察。实验结果显示 $H_{1} \to H_{2}$ 的改进主要来自减少控制噪声（更严格的 JSON 格式、更小的任务聚焦工具模式、压缩近期历史上下文和结构化错误反馈），而非增加模型知识；而 $H_{2} \to H_{3}$ 的增益则主要来自闭合验证和恢复循环，将模糊的执行轨迹转化为模型可据此行动的修正观察。这种机制层面的诊断分析，正是 harness-aware 评估框架所追求的目标：不仅知道 harness 差异有多大，还要知道它们为何产生。

实验评估

论文的实验设计体现了从观察性证据到控制实验的递进策略，这种策略选择本身反映了作者对因果推断的审慎态度。在观察性层面，作者系统性地汇总了来自公开 leaderboard、第三方监测报告和行业部署案例的实证数据，构建了一个全面的 harness 效应图谱。而在控制实验层面，作者设计了一个严格的 3×3 因子网格，以分离和量化 HV 与 MV 的相对大小。这种双层证据结构使得论文的立场不仅建立在广泛的案例观察之上，还通过受控的实验设计得到了因果层面的支持。

观察性证据的收集范围令人印象深刻。在 SWE-bench Pro 的标准化 SEAL scaffold 下，六个领先的前沿模型仅跨越 4.9 个百分点（41.0% 到 45.9%），但将 Claude Opus 4.5 固定并仅更换 harness（从 SEAL 到 Claude Code）就能产生 9.5 个百分点的差距（45.9% 到 55.4%）。在 SWE-bench Verified 上，Grok 4 从 SWE-agent 切换到 xAI scaffold 产生了 14-16 个百分点的跃升。Terminal-Bench 2.0 上的证据更为极端：同一模型仅通过提示词+中间件+验证层的变更，pass@1 从 52.8% 提升到 66.5%（+13.7pp）；通过自动化 harness 优化（AHE）从 69.7% 提升到 77.0%（+7.3pp）；Vercel 的部署案例显示将 15 个工具减少到 2 个工具，成功率从 80% 提升到 100%。这些数据的系统性呈现揭示了一个不容忽视的模式：harness 层的变化 routinely 达到 2-4 个百分点（论文中常被视为有意义的模型进步的阈值）的数倍。HAL 的报告显示，在 SWE-bench Verified Mini 上，同一模型在不同 scaffold 下的差距高达近 48 个百分点，远超任何单个 scaffold 内的跨模型差距。EpochAI 的独立监测报告进一步证实，在 SWE-bench Verified 上，GPT-5 的 scaffold-only 波动高达 11 个百分点，Kimi K2 Thinking 高达 15 个百分点。这些观察性数据虽然无法孤立单一 harness 组件的效应，但共同构成了一个令人信服的总体图景：harness 方差是真实存在的，并且规模巨大。

控制实验的设计是论文方法论的亮点。在 SWE-bench Verified 的 100 任务子集上，三个模型（GPT-5.4、Kimi K2.6、GLM-5.1）和三种 harness 配置（ $H_{1}$ Minimal、 $H_{2}$ Improved、 $H_{3}$ Full）构成了一个完整的 3×3 因子网格。任务选择经过了难度分层，模型选择基于 LLM Stats coding leaderboard 上的紧密聚类，确保它们处于 "可比较前沿模型" 的范围内。实验结果以表格形式呈现（如下），清晰展示了 harness 效应的压倒性规模：

模型 / Harness	$H_{1}$ (Minimal)	$H_{2}$ (Improved)	$H_{3}$ (Full)	HV(M)
GLM-5.1	52.5	56.5	65.5	29.56
GPT-5.4	55.0	58.5	63.5	12.17
Kimi K2.6	52.0	59.0	60.5	13.72
MV(H)	1.72	1.17	4.22	—

平均 HV 为 18.48 pp²，平均 MV 为 2.37 pp²，HV/MV 比率为 7.80×。更换 harness 使 GLM-5.1 移动了 13.0 个百分点，GPT-5.4 和 Kimi K2.6 各移动 8.5 个百分点；而更换模型在固定 harness 下仅移动 3.0、2.5 和 5.0 个百分点。在 9 组可能的模型对/ harness 对比较中，有 6 组发生了排名翻转。这些数据直接支持了 Binding Constraint Thesis，并且以量化的方式驳斥了 "交互效应小到可以忽略" 的常见反驳。

轨迹日志的深入分析揭示了数字背后的机制。 $H_{1} \to H_{2}$ 的改进模式不是增加了模型知识，而是减少了控制噪声：更严格的 JSON-only 动作格式、更小的任务聚焦工具模式、压缩的近期历史上下文和结构化错误反馈，共同减少了畸形输出、重复探索和不必要的宽泛补丁。在排名翻转的案例中， $H_{1}$ 经常达到一个看似合理的局部修复，但由于轨迹耗尽了步骤预算、在追加式历史中丢失了相关状态，或在修复目标失败时引入了通过性回归（pass-to-pass regression）而失败。 $H_{2}$ 通过保留近期任务相关证据、通过检索重新浮现早期相关步骤，以及使工具/动作边界更清晰，将模型保持在更窄的动作路径上，产生的补丁更小、更不可能干扰保留的测试。 $H_{2} \to H_{3}$ 的翻转则展现了不同的机制： $H_{3}$ 增加了每步验证、异常检查和恢复信号，将虚假进展（false progress）转化为可见反馈。 $H_{2}$ 有时会接受一个修复了目标测试但破坏了保留测试的补丁，或将失败的命令、空的测试选择或失败的替换视为有用证据。 $H_{3}$ 的验证器在执行前标记无效的测试命令、失败的编辑、不完整的修复和回归风险，因此尽管 $H_{3}$ 经常花费更多步骤和 token，但其额外增益主要来自闭合验证和回归避免循环。这种机制层面的解释使得论文的结论不仅停留在 "harness 很重要" 的定性层面，而是深入到 "harness 的哪些层通过什么机制产生影响" 的定量诊断层面。

案例研究

论文中虽然没有像传统技术论文那样提供端到端的 "case study" 段落，但控制实验中的轨迹日志分析实际上包含了大量具体的案例，可以被视为案例研究的素材。作者选取了排名翻转和机制对比的案例来深入阐释 harness 效应的具体运作方式，这些案例为理解抽象的控制论框架提供了生动的经验锚点。

一个典型的案例是 $H_{1}$ 下的失败模式。当模型在 Minimal harness 下运行 SWE-bench 任务时，它经常能够生成一个看似合理的代码补丁，该补丁在逻辑上修复了目标问题。然而，由于 $H_{1}$ 缺乏上下文压缩和任务相关检索机制，随着轨迹步骤的推进，追加式的上下文窗口逐渐丢失了对原始任务约束和已有测试的追踪。模型在后续步骤中可能引入一个修复了目标 bug 但破坏了保留测试（retained tests）的回归。由于 $H_{1}$ 没有验证层来检测这种回归，模型继续将失败的测试视为 "有用证据" 纳入下一步决策，从而陷入一个越来越偏离正确路径的螺旋。这种 "局部修复但全局失败" 的模式在 $H_{1}$ 的轨迹中反复出现，它不是模型 "不懂" 如何修复问题，而是控制器未能维护一个一致的全局状态视图。相比之下， $H_{2}$ 通过压缩上下文和任务相关检索，保持了一个更窄但更聚焦的动作空间，使得模型生成的补丁更不可能干扰已通过的测试，从而避免了这种回归陷阱。

另一个具有洞察力的案例是 WarpGrep 搜索子代理的效应。在 SWE-bench Pro 的 Morph leaderboard 上，添加这一个单一工具就能翻转 MiniMax 2.5 与 Claude Opus 4.6 的排序。这个案例之所以令人警醒，是因为 Claude Opus 4.6 在大多数其他 benchmark 上排名高于 MiniMax 2.5，一个额外的搜索工具的加入就逆转了这一关系。从控制论角度分析，WarpGrep 的加入降低了上下文漂移：它使得模型在需要查找代码库中的相关片段时，不必依赖有限的上下文窗口来 "记住" 所有可能相关的文件路径，而是可以通过工具调用来动态检索。这直接作用于漂移率 $δ_{t}$ ，减少了任务相关信息离开上下文窗口的速度。同时，它也降低了控制滞后 $τ$ ：当模型在搜索过程中遇到空结果或不相关文件时，WarpGrep 能够快速返回精确的结果，而不是让模型在错误路径上持续多步。这个单工具的案例表明，即使是很小的 harness 层变更，也能通过作用于闭环控制器的核心机制，产生足以翻转模型排名的效应。

$H_{2} \to H_{3}$ 的对比案例则揭示了验证和恢复机制的重要性。在 $H_{2}$ 下，一个前沿模型可能会接受一个修复了目标测试的补丁，但由于缺乏输出验证，该补丁同时破坏了其他相关测试。 $H_{2}$ 的调度层虽然提供了基本的重试逻辑，但没有对回归风险进行前置检测。当模型收到 "测试失败" 的反馈时，它可能将其解释为需要进一步修改的信号，从而在修复过程中引入新的错误。 $H_{3}$ 的每步自检和异常检测中间件改变了这一动态：当模型生成一个补丁时，验证层在提交前执行一个轻量级的回归检查，如果发现风险则将该信息作为修正观察反馈给模型。这使得模型可以在同一基线能力下，通过更好的反馈结构来避免错误。这个案例生动地说明了控制论的核心洞见：模型本身的知识边界没有扩展，但控制器的反馈结构使得模型可以更有效率地利用其现有知识。

从边缘案例的角度看，论文也讨论了当模型能力差距极大时 Binding Constraint Thesis 的失效。例如，如果对比的是一个前沿模型和一个基础模型，后者可能无论 harness 如何优化都无法完成复杂的长程任务。在这种情境下，MV 会机械性地主导 HV，模型方差成为性能差异的主要来源。作者明确将这种情境排除在命题的适用范围之外，这种诚实性增强了论文的可信度。另一个有趣的边缘案例是 $H_{3}$ 的 "过度验证" 风险：在某些情况下，严格的验证层可能会阻止模型尝试大胆的修复策略，从而降低了对某些需要非直觉修复路径的问题的解决率。作者在轨迹日志中并未发现这种效应的显著证据，但理论上这是一个可能的权衡：更严格的控制可以提高平均可靠性，但可能抑制创新性的解决方案。这一潜在的权衡点为未来研究留下了探索空间。

综合价值与局限

这篇论文在理论层面提供了一个深刻的概念重构：它将 LLM agent 的可靠性问题从 "模型能力问题" 重新框架为 "控制系统问题"。这一转变的理论意义在于，它将 agent 社区从对模型参数的盲目崇拜中解放出来，将注意力引导到反馈控制、状态管理和异常恢复等工程科学的核心议题上。控制论作为一个有着数十年历史的成熟学科，为 agent harness 的设计提供了丰富的概念工具——从 Lyapunov 稳定性到观测器设计，从极点配置到鲁棒控制——这些工具在当前的 agent 研究中几乎未被触及。论文通过将 harness 形式化为控制器，为将这些经典控制理论引入现代 AI 系统铺平了道路。这种跨学科的概念迁移本身就是一种重要的理论贡献，它可能催生一个新的研究方向：控制论启发的 agent 架构设计。

在实践层面，论文的潜在影响是即时且广泛的。对于 benchmark 设计者，Harness Card 和方差分解协议提供了一套可立即采纳的评估规范。如果 NeurIPS、ICML 或 ICLR 的 agent 评估 track 开始要求提交 Harness Card，那么整个领域的评估质量将显著提升。对于工业界的 agent 部署者，论文提供了强有力的论据来支持对 harness 基础设施的投入：在论文的控制实验中，从 $H_{1}$ 到 $H_{3}$ 的 harness 升级带来的性能提升（8.5-13.0 个百分点）远超模型替换的效应（2.5-5.0 个百分点），这意味着在现有模型基础上优化 harness 可能是最具成本效益的性能提升路径。对于研究资助者和产品决策者，论文揭示了一个严峻的现实：当前对模型训练和预训练数据的投资可能正在被 misattributed，因为真正产生更大方差的 harness 工程得到的资源比例远不及其影响。论文的论点暗示，投资 harness 研究——包括上下文管理、工具编排、验证框架和错误恢复——可能具有比模型规模扩张更高的边际回报。

论文的论证也具有显著的方法论优势。作为一篇立场论文，它罕见地结合了形式化数学、控制论理论、大规模观察性数据和严格的控制实验。这种多层次的论证结构使得论文的结论很难被轻易驳斥。作者还主动回应了四个主要反驳：模型扩展将消除 harness 问题、标准化已足够、交互效应可忽略、以及 harness 与模型不可分离。每个反驳都得到了基于实证证据的详细回应，这种 "预反驳" 策略增强了论文的学术严谨性。论文对适用范围（scope）和证伪条件（falsifiability）的明确界定也体现了科学诚实，这在立场论文中并不常见。

然而，论文也存在一些诚实的局限性。首先，其控制实验的样本规模相对较小：100 个 SWE-bench Verified 任务子集，三个模型，三种 harness 配置。虽然实验结果在统计上显著且方向一致，但 7.80× 的 HV/MV 比率是否能在更广泛的任务分布和模型集合上复现，仍需要更大规模的验证。作者自己也审慎地表示 "我们不声称 7.80× 的比率是普遍的"。其次，harness 的 "有意义差异" 的判定标准带有一定的主观性：实验设计依赖于研究者对哪些 harness 变更会影响稳定性、漂移或滞后的先验判断。在更复杂的 agent 系统中，harness 层之间的交互可能使得这种单一层的映射变得模糊。第三，论文主要聚焦于软件工程类 agent（coding agents），其结论在视觉 agent、机器人 agent 或对话 agent 等其他领域的外推有效性需要进一步验证。第四，论文提出的轨迹级指标（Recovery Rate、Context Retention、Control Lag）虽然理论上优雅，但在实际操作中可能面临测量成本高昂的问题：对 100 个任务的轨迹进行逐步骤的异常检测和状态标注需要大量的人工审查或高度可靠的自动标注工具。最后，Harness Card 的披露要求在实践中可能遇到阻力：商业 agent 平台可能将 harness 设计视为竞争壁垒，不愿完全披露其内部机制。论文对此的回应是 "披露标准与锁定 harness 协议并行存在"，但这并未解决商业激励与学术透明度之间的根本张力。

延伸阅读与思考

这篇论文构建在一个日益增长的学术共识之上：agent 的性能不能仅归因于模型本身，而必须考虑系统层面的基础设施。在这一脉络中，最值得回顾的先驱性工作包括 Yao 等人（2022）的 ReAct，它将推理和行动视为耦合系统，为后来的控制论视角奠定了基础；Wang 等人（2024）的 OpenHands 展示了开放式 agent 平台中 harness 设计的复杂性；以及 Rajasekaran（2026）和 Martin 等人（2026）的行业实践报告，它们从部署角度证实了 harness 与模型解耦的必要性。在 harness 优化方向，Hu 等人（2024）的 ADAS 搜索 agentic 系统、Lee 等人（2026）的 Meta-Harness 和 Lou 等人（2026）的 AutoHarness 通过外循环搜索优化 harness 代码，而 Zhang 等人（2026）的 Agentic Context Engineering 则将上下文构建作为独立优化面。这些工作共同构成了论文的实证基础，但它们各自回答的是 "如何使 harness 更好"，而非 "如何正确归因性能增益"——这正是论文的独特贡献所在。

在相关方法论的讨论中，Kapoor 等人（2025）的 Holistic Agent Leaderboard（HAL）和 Deng 等人（2025）的 SWE-bench Pro 统一 scaffold 代表了锁定 harness 协议的实际尝试。论文对这种尝试持部分支持态度，但指出任何标准化 harness 都嵌入了与模型属性交互的设计选择，并且锁定了 harness 可能扼杀 harness 层面的创新。这种对标准化优缺点的辩证分析是论文最具政策相关性的部分。Ge 等人（2026）的 Agent Psychometrics 从项目反应理论（item-response theory）角度分解 agent 能力，其 leaderboard 分析也得出了与论文一致的定性结论，即 scaffold 方差大于 LLM 能力方差。这种来自不同方法论路线的趋同发现，为 Binding Constraint Thesis 提供了独立的外部验证。

从未来研究方向来看，这篇论文至少开启了四条值得深入探索的路径。第一是 harness 距离的公理化定义：论文指出，需要一个关于 harness 配置之间距离的 principled notion，否则 $Var [B (M, H)]$ 对 $P (H)$ 的抽样分布敏感。这是一个尚未被触及的理论问题。第二是 harness 的因果推断：论文的方差分解提供了描述性的共变关系，但层消融设计（layer-ablation designs）才能实现真正的因果归因。如何将 harness 层作为可干预变量纳入因果推断框架，是一个方法论上的前沿挑战。第三是将控制论形式化与强化学习理论对接：论文中的控制器 $C_{H}$ 和策略 $π_{θ}$ 的分离与强化学习中的环境/策略框架有天然的亲和性，但 harness 的离散事件驱动特性和 LLM 的文本生成特性使得标准的 MDP 形式化需要扩展。第四是 harness 的自动优化与评估的整合：当前 harness 优化（如 Meta-Harness、AutoHarness）和 harness 评估（如 Harness Card、方差分解）是两个分离的研究方向，未来的系统可能需要同时优化 harness 性能并验证其跨模型的稳定性。

最深刻的开放问题可能是：当 harness 成为性能的主要决定因素时，"模型能力" 这一概念本身是否需要重新定义？如果同一模型在不同 harness 下可以表现差异巨大，那么 "模型能力" 是否应被理解为一种潜在能力（latent capability），仅在特定 harness 配置下才被实现（actualized）？这类似于心理学中 "能力-表现"（competence vs. performance）的区分，但在 AI 评估中尚未被系统性地引入。论文的框架暗示，agent 评估的对象应当是 {模型, harness} 的耦合系统，而非孤立的模型。这种本体论上的转变可能对 AI 安全研究产生深远影响：如果模型的 "危险能力" 高度依赖于 harness 的激活条件，那么仅仅评估模型权重中的潜在危险可能是不充分的。

个人而言，这篇论文最令人深思的洞见在于它揭示了一种系统性的认知偏差：我们倾向于将可见的、可量化的因素（模型参数、训练数据量）视为因果上的主导因素，而将系统性、基础设施性的因素（harness、反馈结构）视为背景噪音。这种偏差不仅在 AI 研究中存在，在所有工程领域中都普遍存在。论文提醒我们，在复杂系统的评估中，最需要关注的往往是最不显眼的基础设施层。这正是 "Binding Constraint" 一词的深层隐喻：系统的整体性能受限于最紧的约束，而当前最紧的约束可能不是模型，而是我们设计来驾驭模型的 harness。

Topics:

"agent_architecture"
"evaluation"
"llm"
"multi_agent_systems"
"reasoning"
References:
"tulane_university"
"rutgers_university"
"virginia_tech"
阅读方式: L2 深度阅读