From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

基本信息

标题: From Model Scaling to System Scaling: Scaling the Harness in Agentic AI
第一作者: Shangding Gu (UC Berkeley)
研究团队: uc_berkeley
会议/期刊: arXiv:2605.26112v1 [cs.AI] (2026)
代码: https://github.com/SafeRL-Lab/cheetahclaws
PDF 文件: [Scaling the Harness in Agentic AI](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260526_scaling_harness_agentic_ai.pdf)

研究摘要 (Research Summary)

人工智能领域近年来最引人注目的叙事莫过于模型扩展（model scaling）——更大的参数规模、更庞大的训练数据、更精细的后训练技术，以及随之而来的基准测试分数节节攀升。从GPT系列到Claude Opus，从Gemini到各类开源大模型，这一叙事主导了学术界和工业界的注意力。然而，当我们将目光从单纯的对话式AI转向能够长期使用工具、与环境持续交互、在复杂工作流程中自主决策的Agentic AI时，这个叙事开始变得不够完整。Shangding Gu的这篇论文正是站在这个转折点上，提出了一个颇具洞察力的核心论断：Agentic AI的下一个主要瓶颈不是模型本身的能力，而是围绕模型的结构化执行层——即"Harness（ harness ）"——的设计、评估与优化。

这一论断的深刻性在于它重新框定了我们对AI Agent性能来源的理解。传统上，我们习惯于将Agent的能力归结为底层基础模型（foundation model）的推理能力：模型越强，Agent越强。论文指出，这种"模型中心主义"的视角在评估长期任务时会产生严重的误导。当一个基础模型被嵌入到工具调用、终端操作、浏览器交互、代码仓库、记忆存储和外部服务等复杂系统中时，其行为不再由模型单独决定，而是由整个系统共同塑造——上下文如何构造、记忆如何检索、工具如何调用、子代理如何路由、动作如何验证、失败如何审计。这些系统级因素与模型本身的能力交织在一起，共同决定了Agent在长程任务中的表现。

论文将这一系统层命名为"Harness"，并将其定义为一个由六个核心组件构成的执行架构：推理基底（Reasoning Substrate, R）、记忆存储（Memory, M）、上下文构造器（Context Constructor, C）、技能路由层（Skill Router, S）、编排循环（Orchestration Loop, O）以及验证与治理层（Governance & Verification, G）。这一分解的精妙之处在于，它提供了一个可干预、可测量、可独立优化的系统变量集合。模型扩展主要改善R；而系统扩展则致力于提升M、C、S、O和G的质量。作者通过公式 $P_{H} = Φ (R, M, C, S, O, G)$ 形式化地表达了这一观点，其中 $P_{H}$ 表示在时间范围H内的性能， $Φ$ 则是将六个组件映射到最终表现的系统函数。

这一框架的理论贡献体现在三个层面。首先，它提出了系统扩展的视角，将Agentic AI的研究对象从孤立的模型能力转移到模型与执行系统的交互上。其次，它构建了一个Harness级别的分析框架，使得研究者可以独立地讨论记忆质量、上下文效率、技能路由策略等系统因素，而非将其埋没在"提示工程"或"实现细节"的模糊范畴中。第三，论文勾勒了一套系统级评估议程，主张未来的基准测试不应仅关注单次任务的成功率，而应测量轨迹质量、记忆卫生度、上下文效率、通信保真度、验证成本以及长期演化安全性等过程性和纵向指标。

为了将抽象框架具体化，作者开发并开源了CheetahClaws——一个Python原生的参考级Harness实现，并将其与Claude Code和OpenClaw进行系统级设计选择的对比分析。这种对比不是简单的产品评测，而是通过三个系统在不同部署优先级下的设计差异，来验证Harness组件的内在设计问题具有普遍性，而其具体实现又高度依赖于应用场景。论文的结论清晰而有力：未来Agentic AI的进展将同时依赖于更强的基础模型和更优秀的系统设计，而系统扩展——即Scaling the Harness——正在成为与模型扩展同等重要的研究前沿。

理论框架 (Theoretical Framework)

要理解这篇论文的理论创新，我们需要回溯到它所依托的知识谱系，以及它如何在与这些先行工作的对话中确立自身的独特立场。论文的理论根基横跨多个研究领域：工具使用语言模型（Tool-Using Language Models）、检索增强生成（Retrieval-Augmented Generation, RAG）、多智能体协调（Multi-Agent Coordination）以及可执行基准测试（Executable Benchmarks）。

在工具使用方面，从ReAct（Yao et al., 2022）将推理与行动交织的策略，到Toolformer（Schick et al., 2023）让语言模型自学工具调用，再到Reflexion（Shinn et al., 2023）引入语言自我修正循环，这一系列工作奠定了Agent与环境交互的基本范式。然而，这些研究大多聚焦于单次或短程交互中的工具使用策略，而未将工具接口、控制循环、记忆管理和编排策略作为一个统一的系统对象来研究。论文指出，SWE-agent（Yang et al., 2024）的一个重要发现——精心设计的工具模式（tool schemas）即使在固定骨干模型的情况下也能显著提升基准测试准确率——恰恰说明Harness级别的设计具有独立于模型能力的优化空间。

在记忆与检索领域，RAG（Lewis et al., 2020）证明了将参数化语言模型与非参数化外部记忆结合可以显著改善知识密集型任务。MemGPT（Packer et al., 2023）进一步提出了层次化记忆管理的概念，Voyager（Wang et al., 2023）则展示了不断增长技能库对于开放式探索的价值。然而，论文敏锐地指出，这些工作虽然将记忆作为系统组件来对待，却尚未充分认识到记忆质量的核心挑战在于"信任"（trust）而非存储本身。长上下文窗口带来的注意力稀释问题（Gu, 2026）、证据偏好位置效应（Liu et al., 2024），以及Agent在何时应该检索的不确定性校准问题（Guo et al., 2026），都为论文将记忆视为一个需要治理的系统问题提供了理论动机。

多智能体系统的发展同样为论文提供了批判性反思的素材。AutoGen（Wu et al., 2024）、MetaGPT（Hong et al., 2024）和CAMEL（Li et al., 2023）等形式化框架展示了Agent间通信的可能性，而Anthropic的多智能体研究（Anthropic, 2025）报告了在广度优先任务上的显著性能提升。但论文引用Cemri等人（2026）的失败分析指出，当前多智能体系统常常因系统设计缺陷、Agent间对齐不足和任务验证缺失而失败，而非仅仅因为底层模型能力有限。这一观察直接支撑了论文的核心论点：分解（decomposition）比协作（collaboration）更容易实现，而真正的挑战在于使Agent间的通信协议足够可靠以支持长程工作。

基于这一知识谱系，论文提出了其核心理论构造：Agent Harness的六组件分解。这一分解的数学表达 $P_{H} = Φ (R, M, C, S, O, G)$ 虽然被作者明确说明为"概念性组织"而非具有闭合形式的定量模型，但其价值恰恰在于将原本混为一谈的"Agent能力"分解为六个可独立讨论、可分别干预的系统杠杆。其中，推理基底 $R$ 代表基础模型的原生推理质量，是模型扩展的主要作用对象；记忆 $M$ 负责存储跨轮次或跨会话的持久信息；上下文构造器 $C$ 决定每轮交互中向模型呈现什么信息；技能路由层 $S$ 负责任务分解后的工具调用和子Agent分配；编排循环 $O$ 控制整个执行流程的节奏和结构；验证与治理层 $G$ 则对中间推理步骤和外部动作进行 gatekeeping。

论文进一步对 $M$ 和 $C$ 进行了更精细的分解：

M = (precision, durability, retrievability, verifiability)

C = (relevance, compactness, traceability, refresh policy)

记忆的四维分解揭示了信任的构成要素：精确性（precision）要求记忆项在其定义范围内准确无误；持久性（durability）要求记忆的目标状态没有发生静默漂移；可检索性（retrievability）确保在需要时能以可接受的成本获取记忆；可验证性（verifiability）则要求记忆内容能够对照当前环境进行核实。类似地，上下文治理的四维分解则强调了有效上下文不仅仅是"包含相关信息"，还必须在相关性（relevance）、紧凑性（compactness）、可追溯性（traceability）和刷新策略（refresh policy）之间取得平衡。

这一理论框架的一个重要理论承诺是：六个组件之间存在不同程度的可分离性。作者坦承 $R$ 和 $C$ 最难分离——更强的推理基底可以补偿嘈杂的上下文，反之亦然；而 $M$ 和 $G$ 则最容易独立研究，因为它们分别管理写入操作和审计轨迹，这些功能独立于任何单步推理。这种对组件间耦合关系的诚实评估，体现了论文作为理论框架的审慎态度：它不是要提供一个可以直接拟合数据的数学模型，而是要建立一个指导工程和研究干预的概念坐标系。

技术架构 (Technical Architecture)

论文的技术叙事围绕Harness的六组件架构展开，将抽象的理论分解转化为可操作的系统设计原则。整个系统可以被理解为一个以编排循环 $O$ 为核心的控制流：每轮迭代中，上下文构造器 $C$ 从持久记忆 $M$ 和当前任务中提取信息，组装成适合推理基底 $R$ （即基础模型）处理的输入；模型产生输出后，技能路由层 $S$ 决定是调用工具、委派子Agent还是直接生成最终响应；所有中间推理步骤和外部动作都必须经过验证与治理层 $G$ 的 gatekeeping，只有通过验证的结果才能被写回记忆或作用于环境。

这一架构设计的核心洞见在于将"提示"（prompt）、"技能"（skill）和"记忆"（memory）重新诠释为三个互补的时间尺度层。提示是短程控制接口，定义了即时的角色、约束和目标——它灵活而廉价，但本身不创造持久性、可迁移性或可靠的长程结构。技能则是任务级别的可复用执行模式，可能表现为工作流模板、工具使用例程、专用子Agent，或版本化的指令与脚本包。OpenAI近期关于编码Agent技能的讨论（Sera, 2026; Okcular, 2026）明确将耐用程序与一次性提示分离，使其成为可附加到执行环境的复用组件。记忆作为纵向层，存储跨轮次或会话的持久信息：项目约定、用户偏好、环境稳定事实、先前失败经验以及早期工作的提炼结构。

这三个时间尺度的区分具有深刻的工程意义。它们不是可相互替代的选项，而是承担不同功能的互补机制：提示控制"现在做什么"，技能控制"这类事情如何做"，记忆控制"什么应该随时间持续存在"。一个健壮的Agent因此不仅需要良好的提示，还需要适当的技能和选择性的持久记忆基础。

论文通过对比三个具体系统来使这些抽象架构原则具象化：Claude Code（TypeScript实现，生产级厂商Harness）、OpenClaw（TypeScript实现，多通道个人助手）和CheetahClaws（Python实现，研究参考Harness）。这一对比揭示了相同核心系统问题在不同部署优先级下的差异化解决方案。

在上下文治理方面，三个系统都采用了用户-项目-会话（Claude Code和CheetahClaws）或用户-通道-会话（OpenClaw）的多层上下文策略。Claude Code的优势在于其混合上下文策略：通过CLAUDE.md加载持久项目指导，同时通过glob/grep等内置原语实现即时信息访问。这种设计直接响应了上下文治理的核心威胁——"暴露但无法访问"（exposure without access）：随着上下文增长，模型看到更多token但未必能注意到正确的部分。Claude Code的解决方案是将每轮上下文视为选择策略的输出，而非固定缓冲区，通过语义相关性加权、对冗长性的token预算惩罚、近期验证内容的偏好以及来源追溯来实现治理。

在记忆管理方面，三个系统的差异尤为显著。Claude Code和OpenClaw都从访问模式中隐式推导记忆的可信度，而CheetahClaws则将每条目的置信度和时效性作为一等字段存储，直接用于检索排序和冲突解决。这一设计选择使CheetahClaws能够更直接地操作化论文4.2节提出的记忆信任轴：检索时不仅考虑相关性，还加权时效性惩罚和置信度门控的风险项，并将检索内容视为假设而非事实，直到对照实时环境重新验证。

在技能路由方面，论文强调了动态路由与验证的耦合需求。随着专用技能数量的增加，失败模式从"缺少能力"转变为"存在但未验证的能力"。系统需要像操作系统调度器一样，根据子任务类型、置信度感知升级、混合式组合以及针对已验证而非流畅中间输出的优化策略，来动态分配技能路径。每个技能规范都应将后置条件检查作为一等组件。

实验评估 (Experimental Evaluation)

这篇论文的实验评估部分采用了与传统机器学习论文不同的策略：它不是报告某个新模型在标准基准测试上的准确率提升，而是通过系统级比较和文献分析来验证其理论主张。这种评估策略本身就是对论文核心观点的践行——如果Harness级别的设计选择确实重要，那么我们应该能够通过比较不同Harness在相同或相似基础模型下的行为差异来观察到这种重要性。

论文的实验论证策略可以分为三个层面。首先，它引用了一系列已有研究的实证发现来建立"Harness设计独立影响性能"的基线事实。SWE-agent（Yang et al., 2024）的实验表明，仅重新设计Agent-计算机接口（即Harness的工具接口层），在固定底层模型的情况下，就能显著提升SWE-bench的准确率。Kapoor等人（2024）的场级分析发现，许多Agent基准测试结果未能将能力与成本、提示策略和示范样本分离，一旦控制这些因素，许多看似先进的结果就不再具有帕累托最优性。这些发现直接支持了论文的核心主张：我们观察到的"模型分数"实际上往往是"模型加Harness分数"。

其次，论文通过对三个具体系统（Claude Code、OpenClaw、CheetahClaws）的设计模式比较，展示了Harness级别变量如何在实践中体现。这种比较不是传统意义上的受控实验，而是一种"设计人类学"式的分析：通过拆解三个系统的架构文档和公开实现，识别它们在相同系统问题上的不同解决方案。这种比较方法的价值在于证明论文提出的六个系统组件（R, M, C, S, O, G）不是抽象的理论虚构，而是实际系统设计者必须面对的真实工程问题。

设计维度	Claude Code	OpenClaw	CheetahClaws
实现语言	TypeScript	TypeScript	Python
主要场景	厂商编码Agent	个人助手（多通道）	研究参考
主要交互方式	终端CLI / IDE	消息应用	终端CLI
上下文治理	用户、项目、会话	用户、通道对等体、会话	用户、项目、会话
记忆策略	持久文本记忆，自动提取	对话历史，向量检索	结构化条目，带置信度和时效性
源代码可用性	闭源	开源	开源

上表展示了三个系统在关键设计维度上的差异。这些差异不是表面上的实现细节，而是反映了不同部署优先级下的系统性选择：Claude Code作为厂商级系统优先考虑可靠使用，OpenClaw作为个人助手系统优先考虑多通道管理的统一网关，CheetahClaws作为研究平台优先考虑透明度和可复现性。尽管优先级不同，三个系统都必须在上下文治理、记忆管理和技能路由这三个核心瓶颈上做出明确的设计决策，这验证了论文关于Harness组件内在性的论断。

第三，论文通过纵向评估维度的分析，提出了未来基准测试应该测量的系统级指标。这种前瞻性评估框架的提出，本身就是对当前评估范式局限性的系统级"实验"。论文指出，当前基准测试如SWE-bench、AgentBench、WebArena和Terminal-Bench虽然在将评估从静态token预测转向多步执行方面取得了重要进展，但仍然主要报告单次任务成功率。这种端点指标无法捕捉两个同样成功的Agent在token消耗、工具调用次数、重试次数、失败编辑、人工干预和可审计性方面的巨大差异——而这些过程级差异恰恰决定了延迟、货币成本、用户信任、可复现性和部署安全性。

评估维度	当前基准测试覆盖	未来需求
单次完成	常见	是
记忆检索精度	罕见	是
记忆卫生度	罕见	是
最小上下文效率	罕见	是
通信保真度	罕见	是
长会话/轨迹漂移	罕见	是
验证感知恢复	部分	是
工具访问下的安全性	部分	是

上表展示了论文提出的系统级评估维度。值得注意的是，论文并未声称要取代现有基准测试，而是要扩展其评估表面（evaluation surface），使其能够暴露那些在长期部署中真正重要的系统属性。

案例研究 (Case Studies)

论文虽未提供传统意义上的详细端到端案例，但通过三个系统的具体设计选择作为"微型案例"，我们可以深入理解Harness级别设计的实际影响。让我们以Claude Code的上下文治理策略和CheetahClaws的记忆信任机制为例， walk through 这些设计如何在实践中运作。

Claude Code的上下文治理采用了混合策略：一方面，它通过CLAUDE.md文件维护持久项目上下文，这相当于一种结构化的长期记忆；另一方面，它提供glob、grep、文件读取等内置原语，使Agent能够按需访问实时仓库状态。这种设计的精妙之处在于它直接回应了记忆信任的核心威胁——"陈旧但自信"（stale-but-confident）。假设Agent在上周记住了一个事实："数据加载器定义在utils/loader.py中"。这周开发团队进行了重构，将该定义迁移到了另一个位置。没有验证机制的记忆系统会继续自信地引用旧路径，导致Agent调用已删除的符号或重新引入已修复的回归。Claude Code的解决方案不是完全依赖持久记忆，也不是完全依赖实时搜索，而是将两者结合：持久记忆积累已验证的知识，实时原语提供按需验证的能力。这种"混合记忆架构"在实践中意味着，当Agent需要引用一个文件路径时，它会优先检查持久记忆中的记录，但同时会通过glob/grep验证该记录是否仍然有效。如果验证失败，它会更新记忆并继续执行，而不是盲目遵循过时的信息。

CheetahClaws的记忆机制则提供了另一种设计哲学的例证。与Claude Code从访问模式中隐式推导信任不同，CheetahClaws将每条记忆的置信度和时效性作为一等字段显式存储。这意味着在检索排序时，系统不仅考虑查询-记忆相关性，还应用时效性惩罚和置信度门控的风险项。具体来说，一条记忆的检索得分可以表示为相关性、时效性衰减函数和置信度门控的加权组合：

retrieval_score = α \cdot relevance - β \cdot staleness_penalty (t_{last_verified}) + γ \cdot confidence_gate (c)

其中 $t_{last_verified}$ 是上次验证时间， $c$ 是置信度值， $α, β, γ$ 是权重系数。这种显式表示使系统能够更精细地控制记忆信任：高置信度但过时的记忆可能获得较低的总体得分，而低置信度但近期验证的记忆可能被优先使用。这种设计选择的研究价值在于，它使记忆信任的运作机制变得透明和可干预——研究者可以直接调整权重系数或衰减函数，观察系统行为的变化，而无需通过黑箱式的访问模式分析来间接推断信任机制。

这两个微型案例揭示了Harness设计的一个深层原则：相同的基础问题（如何维护可信任的记忆）可以有不同的系统级解决方案，而这些解决方案的选择会深刻影响Agent的行为特征。Claude Code的混合策略更适合生产环境，因为它在不需要显式信任计算的情况下提供了实用的鲁棒性；CheetahClaws的显式策略更适合研究，因为它允许对信任机制进行精确的实验操作。这两种设计没有绝对的优劣之分，而是反映了不同部署上下文下的工程权衡。

综合价值与局限 (Synthesis — Value and Limitations)

这篇论文的理论意义在于它提供了一种概念性的"范式转移"工具：它将Agentic AI的研究焦点从"如何让模型更聪明"扩展到"如何让系统更可靠"。这种重新框定不是对模型扩展价值的否定，而是对其局限性的诚实认识。正如论文反复强调的，更强的基础模型仍然是必要的，但一旦模型达到足够的能力阈值，长程Agent性能的额外增益越来越依赖于周围系统的设计质量。这种"阈值后系统敏感性"的观点具有重要的战略意义：它暗示着Agentic AI领域可能正在进入一个与模型扩展并行甚至同等重要的系统创新时代。

从实践影响来看，论文的价值体现在多个层面。对于系统设计者，六组件框架提供了一个诊断和优化Agent系统的概念工具箱。当某个Agent在长程任务中表现不佳时，设计者现在可以系统地检查：是上下文构造器未能组装最小充分上下文？是记忆系统积累了未检测到的漂移？是技能路由层做出了错误的路径选择？还是验证与治理层未能捕获中间错误？这种结构化诊断比笼统的"提示工程调优"更具针对性。对于评估研究者，论文提出的纵向评估维度为未来基准测试的设计提供了明确的路线图。对于政策制定者和安全研究者，论文关于Agent演化标准的讨论（什么可以持久化？什么可以更新？什么应该可审计？）为治理框架的建立提供了技术基础。

论文的批判性分析尤为值得称道。它诚实地面对了三个可能的反对意见。第一个反对意见认为更强的模型最终会内部化所有系统功能，使显式Harness变得多余。论文的回应是：无论模型能力如何，一个能够对世界采取行动的Agent都需要一个系统来决定哪些行动被允许、如何验证、如何追溯——这些是治理问题而非推理问题。第二个反对意见主张端到端训练将取代模块化系统。论文反驳说，部署中的Agent需要处理私有文件、凭证、工具、仓库、浏览器和外部服务，在这些场景中可审计性、权限控制、回滚和来源追溯不是可选功能，而是安全和可治理部署的必要条件。第三个反对意见指出系统级评估过于昂贵和环境特定。论文坦然承认这一点，但反问：Agent正是部署在成本、延迟、工具风险、记忆漂移和验证开销决定系统可用性的环境中，评估协议应该暴露这些因素而非抽象掉它们。

然而，论文也存在一些可以讨论的局限。首先，六组件分解虽然概念上清晰，但组件之间的交互复杂性在实际系统中可能远超论文所暗示的程度。例如，编排循环 $O$ 的设计深刻地影响所有其他组件的运作方式，而这种耦合关系在框架中尚未得到充分的展开。其次，论文主要依赖概念分析和设计比较，缺乏大规模的受控实验来量化不同Harness设计选择对性能的独立贡献。虽然引用SWE-agent等已有研究部分弥补了这一不足，但一个系统性地变化Harness组件并测量其效应的实验研究仍然缺失。第三，CheetahClaws作为研究参考实现，其复杂度和成熟度与Claude Code等生产系统存在显著差距，这可能限制了某些设计洞察的可迁移性。最后，论文提出的纵向评估维度虽然方向正确，但尚未提供具体的实现方案或验证这些维度确实能预测实际部署成功率的证据。

延伸阅读与思考 (Further Reading and Reflection)

这篇论文所依托的知识网络涵盖了近两年来Agentic AI领域最重要的进展。在工具使用方面，除了论文已引用的ReAct、Toolformer和Reflexion，值得进一步探索的是Code as Agent Harness（Ning et al., 2026）这一平行研究方向，它将代码本身视为Harness的表达方式，与论文的系统组件视角形成有趣的互补。在记忆管理方面，MemGPT的层次化记忆管理和Voyager的技能库增长机制提供了更详细的实现参考，而Gu（2026）关于长上下文注意力稀释的研究则为上下文治理的必要性提供了实证基础。在多智能体协调方面，AgenticPay（Liu et al., 2026）展示了多Agent谈判系统，与论文讨论的通信协议可靠性问题直接相关；X-MAS（Ye et al., 2025）则研究了异构LLM构建多Agent系统的问题，扩展了论文关于技能路由的讨论。

对于同一问题的替代方法，我们可以关注几个不同的研究路线。端到端Agent训练——如通过强化学习直接优化Agent的轨迹——试图将Harness的功能内部化为模型的一部分，与论文的模块化系统观形成鲜明对比。提示工程优化路线（如Wei et al., 2022的Chain-of-Thought和White et al., 2023的提示模式目录）则代表了更轻量级的系统扩展方式，虽然论文认为提示在长程任务中存在固有的脆弱性。在安全方面，Hubinger等人（2024）关于"潜伏Agent"的研究揭示了持久化行为如何在后续训练中存活，直接支持了论文关于Agent演化标准的紧迫性；OWASP的Agentic AI威胁目录（OWASP, 2025）则为论文讨论的治理层提供了具体的安全威胁模型。

论文打开的未来研究方向丰富而具有挑战性。最迫切的是开发能够测量论文提出的纵向评估维度的具体基准测试协议。如何量化"记忆卫生度"？如何定义"通信保真度"的指标？如何设计实验来检测"长会话漂移"？这些都不是简单的问题，但回答它们将推动整个领域向更成熟的系统科学发展。另一个重要方向是动态技能路由的自适应算法：论文提出了问题框架，但具体的在线学习算法、置信度估计机制和组合优化策略仍然开放。Agent演化标准的具体化也是一个充满挑战的前沿：什么样的更新策略既能允许系统适应，又能保证审计边界不被突破？

在这一领域中，最深的未解挑战或许是"封闭性"（closure）问题：我们如何设计一个系统，使其在持续学习和适应的过程中不会逐渐偏离其设计者意图的边界？论文提到的记忆污染、身份伪造、工具误用和目标操纵等威胁（OWASP, 2025）只是这一问题的表面表现。更深层的问题是，当Agent的演化标准本身也成为系统的一部分时，谁来治理治理者？这种元级别的治理问题可能需要在Harness架构中引入额外的反思和约束层。

个人而言，这篇论文最令人深思的洞察是它揭示了一个常常被我们忽视的简单事实：Agent的能力不是模型的属性，而是系统的涌现属性。在追逐更大模型、更高分数的过程中，我们可能正在错过一个同样重要的创新空间——如何通过更好的系统设计，将已有的模型能力更可靠、更高效、更安全地转化为长期的智能行为。这种"系统思维"的回归，不仅是对当前模型中心主义叙事的有益纠正，也可能预示着AI工程实践从"模型炼金术"向"系统工程科学"的成熟转变。论文最后提出的问题——"Agent质量应该被评估为纵向系统属性而非单次完成分数"——可能是整个领域在未来几年需要认真回应的核心命题。

笔记创建时间: 2026-05-27
阅读方式: L2 深度阅读

Topics: