Agent Memory: Characterization and System Implications of Stateful Long-Horizon Workloads

基本信息


研究摘要

随着大语言模型(Large Language Model, LLM)从单纯的文本生成工具演进为能够执行多步推理、调用工具并在持续交互中维持状态的自主智能体,一个根本性的系统问题浮现出来:当智能体的交互历史远超单条推理上下文所能容纳的范围时,如何以系统化的方式持久化存储、选择性检索并增量更新记忆?这篇由斯坦福大学、KU Leuven(MICAS实验室)以及麻省理工学院研究者联合发表的论文,首次从系统层面刻画了智能体记忆(Agent Memory)的工作负载特征,填补了一个长期被忽视的空白。

在传统的检索增强生成(Retrieval-Augmented Generation, RAG)范式中,记忆被视为静态的、预先索引好的文档集合,智能体只需从中检索相关片段即可。然而,当LLM智能体被部署到长期任务中时,记忆变成了一个动态变化的、由智能体自身交互流产生的可变状态——它会被追加、摘要、整合、链接甚至重写。这一转变将记忆从一个被动的检索目标转变为一个具有写路径、检索路径和持续维护策略的主动系统组件。正是这一转变的系统性后果,构成了本文的核心研究问题。

论文提出了四项核心贡献,层层递进地构建了一幅完整的系统图景。首先,作者建立了一个系统导向的分类体系(taxonomy),从构造(construction)、存储(storage)、检索(retrieval)和可变性(mutability)四个维度将现有的智能体记忆系统划分为四大范式,并为每种范式预测了其成本特征签名。其次,他们构建了一个阶段感知的评测工具(phase-aware profiling harness),能够将运行成本精确归因到记忆构造、检索和最终答案生成这三个逻辑阶段。第三,基于这一工具,他们对十个具有代表性的智能体记忆系统进行了跨两个基准测试套件的全面表征,揭示了设计选择如何在写路径和读路径之间转移成本。最后,基于这些发现,他们提炼出十条面向实际部署的系统建议,涵盖了构造调度策略、能力下限设定、查询量摊销、新鲜度-延迟权衡以及fleet规模管理等多个维度。

实验结果揭示了一系列令人警醒的发现:在智能体记忆系统的全生命周期中,占主导地位的成本并非用户感知到的查询延迟,而是发生在后台的构造过程;不同系统之间的单次查询延迟跨度可达两个数量级;每正确回答一个问题的能耗差异高达47倍;而在持续会话场景中,单次会话构造时间的差异更是横跨五个数量级。这些数量级层面的差异,意味着仅凭准确率来选择智能体记忆系统是一种危险的简化——系统选择本质上是一个需要同时权衡构造成本、服务延迟和任务质量的系统级决策。

理论框架

本文的理论根基深植于计算机系统领域对存储层次结构(memory hierarchy)的长期研究传统,同时融合了信息检索和语言模型推理的最新进展。作者将智能体记忆重新定义为一种从静态RAG到动态状态管理的范式跃迁,这一重新框定(reframing)本身就构成了重要的理论贡献。

从知识存储的演化脉络来看,早期的神经网络系统将知识视为纯粹参数化的(parametric),即全部编码在模型权重之中。RAG通过将LLM连接到静态外部语料库,实现了非参数化状态的选择性访问。而长期智能体则更进一步:记忆语料不再是预先处理和索引的固定文档集合,而是由智能体自身交互流产生的可变状态,通常以用户为单位进行组织,并随着新证据的到来在会话间被追加、摘要、整合、链接或重写。这一转变可以用一个双层记忆层次结构来概念化:短期工作记忆(working memory)由当前上下文和检索到的记忆片段构成,而长期记忆(long-term memory)则是一个持久的、可维护的存储库。智能体在推理时从长期记忆中检索相关状态到活跃上下文,在交互后更新记忆,并持续维护已存储的知识。

基于这一理论视角,作者提出了一个四维分类体系来系统性地刻画智能体记忆系统。第一个维度是构造机制(construction),即系统如何将原始交互历史转化为可检索的记忆记录。第二个维度是存储组织(storage organization),即记忆条目在数据库中的物理和逻辑组织方式。第三个维度是检索策略(retrieval policy),即系统如何根据当前查询选择和组装记忆证据。第四个维度是可变性(mutability),即记忆条目在写入后是否允许修改、整合或删除。

沿着这四个维度,十个代表性系统被归入四大范式。第一范式是长上下文记忆(Long-context memory),它不做任何外部记忆构造,直接将完整交互历史作为提示输入LLM,此时检索等价于透传。第二范式是扁平RAG记忆(Flat RAG memory),通过确定性索引(如倒排索引或稠密向量索引)实现快速检索,但缺乏丰富的语义处理能力。第三范式是结构增强RAG记忆(Structure-augmented RAG),可细分为仅追加(append-only)的子范式(如GraphRAG和HippoRAG v2)和可整合(consolidating)的子范式(如Mem0和SimpleMem),它们在存储中引入了图结构或多视图表示,以支持更复杂的推理和冲突解决。第四范式是智能体控制流(Agentic control flow),如A-Mem、Letta和MIRIX,它们将记忆操作暴露为LLM决策循环中的可调用工具,使构造和检索变成可变深度的控制流程。

这一分类体系的理论价值在于,它不仅能够描述现有系统的特征,还能预测其系统行为。例如,第一范式的构造成本为零但查询成本随历史线性增长;第四范式将大量工作转移到构造阶段,实现了较低的查询延迟但极高的构造开销;而第二范式在两者之间取得了极简的平衡,却牺牲了处理复杂语义的能力。这种"成本签名"(cost signature)的概念,使得系统选择从纯粹的经验试错转变为有理论指导的工程决策。

技术架构

本文的技术架构可以分解为三个相互关联的部分:分类体系的实现逻辑、评测工具的设计原理,以及实验验证的系统配置。

在分类体系的实现层面,每个范式都对应着截然不同的数据流和控制流。以第四范式中的Letta为例,它实现了MemGPT抽象,将紧凑的核心记忆(core memory)与归档记忆(archival memory)分离,并通过LLM可调用的工具暴露读写操作。当智能体需要访问记忆时,记忆访问成为一个由智能体自身选择的动作——这意味着延迟不仅取决于检索算法本身,还取决于LLM在何时、以何种方式调用记忆操作。这种将记忆操作融入智能体决策循环的设计,与第三范式中Mem0的被动事实提取形成了鲜明对比:Mem0在构造阶段通过LLM将交互历史提取为原子化的事实,然后通过相似性搜索决定每个新事实应该被添加、更新还是删除,检索阶段则完全不需要LLM介入,实现了极低的查询延迟。

评测工具的技术设计体现了"阶段感知"(phase-aware)的核心理念。作者构建了一个分析框架,将智能体记忆系统的运行过程精确划分为三个逻辑阶段:记忆构造(memory construction)、检索(retrieval)和答案生成(generation)。在API遥测层面,工具记录每一次聊天补全和嵌入请求,标记其调用类型、来源标签、起止时间、延迟、提示词token数、补全token数、嵌入输入token数以及嵌入序列数量,并将这些调用与触发它们的阶段和索引(chunk、window、turn或query)关联起来。在硬件遥测层面,工具通过NVML和DCGM类GPM计数器轮询GPU指标,记录设备功耗、GPU利用率、VRAM占用、SM活动度、张量核心活动度和HBM带宽,并将这些采样与阶段标记对齐,通过在各阶段区间上积分设备功耗来计算阶段级能耗。

实验的技术配置采用了双轨制构造方案:在远程构造模式下,构造使用OpenAI托管模型(GPT-4o-mini或GPT-4.1-mini用于LLM调用,text-embedding-3-small用于嵌入),这匹配了大多数系统原始发布时的配置;在本地构造模式下,所有模型通过vLLM在单张NVIDIA H100 80GB HBM3 GPU上本地服务,从而能够精确测量硬件利用率、能耗和阶段级瓶颈。LLM模型阶梯包括Qwen3-32B、Qwen3-14B、Qwen3-8B和Qwen3-1.7B,嵌入模型使用Qwen3-Embedding-0.6B。所有系统都在隔离的SLURM作业中运行,配备一个GPU和六个Intel Xeon Platinum 8480C核心。这种配置设计确保了在控制变量的同时,能够覆盖从高端API服务到本地边缘部署的完整场景谱系。

为了消除因提示格式不匹配而非记忆质量差异带来的偏差,作者对对话导向型系统进行了最小化的任务适配:更新提取提示使其能够消费非对话历史并保留任务相关事实;调整A-Mem的解析器以在非对话数据集上聚合细粒度的解析单元;替换Mem0的默认个性化提取提示为ICL感知提示以保留整数标签等。这些适配仅限于接口和提示级别的兼容性修改,不改变系统的核心算法逻辑。

实验评估

实验设计围绕一个核心问题展开:智能体记忆系统的设计选择如何在构造成本、服务延迟和任务准确率这三个相互牵制的维度上形成不同的权衡?为了回答这个问题,作者在MemoryAgentBench(MAB)基准测试套件上进行了大规模系统表征,同时辅以MemoryArena的多会话任务来探索新鲜度-延迟权衡。

MemoryAgentBench将长上下文任务转换为增量多轮交互流,评估四种记忆能力:准确检索(accurate retrieval)、测试时学习(test-time learning)、长程理解(long-range understanding)和选择性遗忘(selective forgetting)。实验重点聚焦于LongMemEval_S_*工作负载,这是MAB中最广泛采用的长时对话记忆设置,包含五个样本,每个样本约有360K token的历史和60个查询(共300个查询),能够清晰地将长交互历史上的构造与重复的查询时检索和生成分离开来。

在远程构造、GPT-4o-mini和text-embedding-3-small的配置下,BM25以55.8%的最高准确率和不到1秒的构造时间占据了准确率-构造成本帕累托前沿的制高点,但其单次查询延迟约为7.4秒。Mem0以仅约0.1秒的单次查询延迟成为服务最快的系统,却付出了约4108秒的构造时间和仅26.8%的准确率代价。结构增强和智能体控制系统虽然支付了更高的构造成本,却并未在准确率上超越BM25:HippoRAG v2达到47.4%准确率需要约277秒构造,GraphRAG达到47.0%需要约2850秒,而A-Mem以约17666秒的全套件最高构造时间仅获得42.1%的准确率。这一"构造-服务-准确率前沿"(construction-serve-accuracy frontier)的发现具有深刻的工程意义:没有任何单一系统能在三个维度上同时最优,每个系统都占据着一个独特的权衡点。

记忆系统 准确率(%) 构造时间 总调用次数 总能耗(kJ) 每正确回答能耗(J)
BM25 47.0 16.3分钟 300 582 4,128
embedRAG 39.8 14.4分钟 610 495 4,144
GraphRAG 46.0 1.83小时 3,215 2,082 15,084
HippoRAG v2 44.3 44.2分钟 2,743 1,339 10,079
Mem0 32.0 4.02小时 4,538 4,878 50,813
SimpleMem 36.0 3.92小时 4,447 5,481 50,749
A-Mem 42.7 11.76小时 19,230 14,864 116,116
Letta 27.7 14.36小时 18,394 15,429 185,873
MIRIX 20.0 6.03小时 7,655 8,678 144,629

上表揭示了令人震惊的成本差异:从BM25的582kJ总能耗到Letta的15,429kJ,能耗跨度超过26.7倍;而将能耗归一化到正确回答数后,跨度进一步扩大到47倍以上。尤其值得关注的是,即使准确率相近的系统也可能在生命周期能耗上相差一个数量级——例如Mem0和SimpleMem的准确率分别为32.0%和36.0%,但它们的每正确回答能耗都在约50kJ左右,远高于准确率更高的GraphRAG(15kJ)和HippoRAG v2(10kJ)。

在构造-LLM敏感性实验中,作者发现对于没有严格输出契约的系统(如Mem0、SimpleMem、A-Mem),准确率随着构造LLM的缩小而平滑下降,允许在准确率和成本之间进行连续权衡。而具有严格输出契约的系统(如MIRIX)则表现出硬性能力下限:当使用Qwen3-1.7B时,MIRIX完全失效,因为其管道依赖多个子代理工具调用,要求模型能够可靠地产生格式良好的JSON模式和合法的工具调用语法。GraphRAG则表现出令人惊讶的鲁棒性,在从Qwen3-1.7B到GPT-4o-mini的完整阶梯上维持约47-48%的准确率,因为其实体-关系提取的退化是渐进的而非结构性的。

在多会话场景下的新鲜度-延迟权衡实验中,作者使用MemoryArena的物理分割任务,每个任务包含一系列相互依赖的子任务。在同步调度模式下,构造缓慢的会话会延长整体时间线;在异步调度模式下,SimpleMem、MIRIX、Letta、Mem0和A-Mem会产生陈旧记忆(staleness),即后续查询可能检索到尚未持久化的会话之前的状态。实验发现,单次会话构造时间在系统间横跨五个数量级,从BM25的亚毫秒级到第四范式系统的数十秒级,这使得它成为会话间系统选择的主导性属性。

案例研究

为了深入理解不同范式的实际运行机制,我们可以选取两个具有代表性的系统——Mem0(第三范式b类,可整合的结构增强RAG)和Letta(第四范式,智能体控制流)——来展示它们在相同的任务场景下如何产生截然不同的系统行为。

当面对一个包含360K token交互历史的LongMemEval_S_*任务时,Mem0的构造管道首先通过LLM将原始交互历史提取为原子化的事实列表。对于每一个新提取的事实,Mem0会将其嵌入为稠密向量,然后通过相似性搜索在现有事实库中查找最相似的条目,基于相似度阈值做出ADD(添加新事实)、UPDATE(更新现有事实)或DELETE(删除过时事实)的决策。这个过程的本质是将一个复杂的、多步的交互历史压缩为一组互斥的、可独立检索的原子命题。由于构造阶段已经完成了所有的语义处理和冲突消解,检索阶段变得极为轻量:只需对查询进行嵌入,然后执行一次向量相似性搜索返回top-k个最相关的事实即可。这就是为什么Mem0能够实现约0.1秒的单次查询延迟——它是用构造阶段的繁重计算来换取检索阶段的极简效率。

相比之下,Letta采用了完全不同的哲学。它继承了MemGPT的抽象,将记忆分为紧凑的核心记忆(相当于短期工作记忆)和归档记忆(相当于长期存储)。当智能体需要回答一个查询时,它并不会直接执行预定义的检索算法,而是将记忆访问作为自身决策循环中的一个可选动作。LLM首先分析当前查询,然后决定是否需要调用记忆工具、调用哪个记忆工具(例如检索归档记忆、更新核心记忆、压缩核心记忆等)、以及在获得检索结果后是否还需要进一步的记忆操作。这种设计的灵活性极高——智能体可以根据任务的具体需求动态调整记忆策略——但这种灵活性是以不可预测的系统开销为代价的。实验数据显示,Letta的构造时间高达约13.3小时,总能量消耗超过15,000kJ,准确率却仅27.7%。在本地模型配置下,Letta还需要额外的工具调用上限和任务特定的系统提示来防止本地模型发出数百个重复的记忆工具调用。

这两个案例揭示了智能体记忆设计中的一个深层张力:确定性管道(如Mem0的事实提取-相似性搜索管道)提供了可预测的成本和延迟,但牺牲了适应性;而自适应控制流(如Letta的工具驱动记忆访问)提供了极大的灵活性,却引入了难以约束的最坏情况成本。这一张力贯穿于整个实验结果中,并成为十条系统建议的底层逻辑基础。

综合价值与局限

本文的理论意义在于,它将智能体记忆从一个应用层的"功能特性"提升到了一个系统级的"工作负载类别"。在此之前,关于智能体记忆的讨论主要集中在记忆表示的质量(如事实提取是否准确、检索是否相关)和算法创新(如新的索引结构或新的整合策略),而对其系统层面的行为——构造成本、能耗特征、延迟结构、存储增长模式——缺乏系统的理解。本文通过建立分类体系、构建评测工具和开展大规模实验,首次为这一领域提供了严谨的工程分析框架。

从实践影响来看,这项工作直接服务于正在部署或计划部署LLM智能体的企业和研究机构。十条系统建议每一条都具有明确的可操作性:建议1提醒决策者不能仅凭准确率选择记忆系统;建议2指出必须将构造阶段的能耗纳入全生命周期成本计算;建议3强调应将构造视为后台吞吐工作负载并实施准入控制;建议4提出利用输入重叠来降低重复预填充成本;建议5指出构造LLM的能力下限是由算法本身决定的硬性约束;建议6强调应根据工作负载的查询到达模式来匹配构造-查询成本分配;建议7将累积构造和检索时间视为会话间工作负载的可行性硬约束;建议8提出应根据记忆系统类型调整构造节奏;建议9提醒评估者必须同时关注初始存储占用和成本增长斜率;建议10指出对于延迟敏感的部署,应将最坏情况延迟作为选择标准。这些建议共同构成了一个从系统选型到部署运维的完整决策框架。

本文的强项在于其方法论的系统性和数据的丰富性。作者不仅评估了十个系统,而且控制了模型配置、提示格式、评测指标和硬件环境,使得跨系统比较具有前所未有的可信度。阶段感知的评测工具将API遥测和硬件遥测对齐到同一时间线,实现了细粒度的成本归因。双轨制构造方案(远程API和本地vLLM)使得结果同时适用于云端部署和本地部署场景。

然而,本文也存在一些诚实的局限性。首先,所有实验都在单节点设置下进行,未能覆盖多节点和多智能体部署中分布式记忆存储的一致性和协调需求。其次,评测范围仅限于文本记忆,而多模态记忆(图像、音频、结构化观察数据)是一个正在兴起且远未成熟的前沿领域,作者预期多模态记忆将进一步放大本文识别的构造成本、存储占用和检索复杂性挑战。第三,十个被评估的系统虽然具有代表性,但智能体记忆系统的生态系统仍在快速演化,新的架构(如基于状态空间模型的记忆系统)可能产生与现有分类体系不完全吻合的成本特征。最后,本文主要关注单用户场景的成本分析,对于多用户并发场景下的资源竞争和调度策略着墨较少。

延伸阅读与思考

本文建立在一个丰富的前期研究基础之上。在RAG领域,Lewis等人(2020)的开创性工作确立了检索增强生成的基本框架;Karpukhin等人(2020)的稠密通道检索(Dense Passage Retrieval)和Robertson与Zaragoza(2009)的概率相关性框架(即BM25的理论基础)为第二范式的扁平检索提供了算法根基。在智能体记忆方面,Packer等人(2024)的MemGPT提出了将LLM作为操作系统来管理分层记忆的抽象;Edge等人(2025)的GraphRAG将图结构引入RAG以实现全局推理;Liu等人(2026)的SimpleMem探索了终身记忆的高效实现;而Wang与Chen(2025)的MIRIX则展示了多代理场景下的异构记忆路由。本文的分类体系和实验表征正是建立在这些分散的前期探索之上,将它们整合为一个统一的理解框架。

与本文同期或相近的研究方向中,有几个值得关注的平行工作。在记忆基准测试方面,Hu等人(2026)的MemoryAgentBench和He等人(2026)的MemoryArena提供了本文实验所依赖的评估基础设施。在记忆系统优化方面,Wu等人(2024)的LongMemEval专注于长时对话记忆的评估,而Wei等人(2026)的Evo-Memory则探索了测试时学习与自演化记忆的基准测试。在系统优化方面,Kwon等人(2023)的vLLM通过PagedAttention大幅改善了LLM服务效率,Saad-Falcon等人(2026)提出的"每瓦特智能"(Intelligence per Watt)指标则与本文的归一化能耗分析形成了理念上的呼应。

本文开启的未来研究方向丰富而深远。一个直接的问题是:能否设计出同时位于构造-服务-准确率帕累托前沿上的新型记忆系统?当前的结果表明,现有系统在三个维度上呈现出明显的"不可能三角"特征,但这究竟是当前算法范式的内在局限,还是可以通过新的架构设计来突破?例如,基于状态空间模型(如Mamba)的记忆系统可能从根本上改变构造和检索的计算特征,因为它们天生适合处理长序列而无需二次复杂度的注意力计算。

另一个深层问题是LLM-bounded与algorithm-bounded系统之间的根本差异。本文发现,由LLM自主决定何时停止的系统(如MIRIX、SimpleMem、Letta)在最坏情况延迟上具有不可预测的尾部行为,而算法固定深度的系统(如BM25、HippoRAG v2)则具有更窄的尾部。这一发现暗示了一个关于"可计算代理行为边界"的元问题:当我们将系统控制权部分委托给LLM时,我们能否在不牺牲适应性的前提下获得确定性的最坏情况保证?

对我个人而言,本文最发人深省之处在于它揭示了一个常被忽视的真相:在AI系统的全生命周期成本中,"看不见"的后台计算往往远超"看得见"的交互延迟。当讨论大模型的部署成本时,业界通常聚焦于单次推理的token价格和响应延迟,而本文以令人信服的数据表明,对于长期智能体而言,记忆构造阶段的能耗和计算开销可能是查询阶段的上百倍。这一发现对于我们设计和部署可持续的AI系统具有重要的警示意义——我们需要的是一种"全生命周期智能"(whole-lifecycle intelligence)的度量,而不仅仅是交互质量的度量。


笔记创建时间: 2026-06-06
阅读方式: L2 深度阅读

Topics:

Powered by Forestry.md