Context Engineering 2.0: The Context of Context Engineering

Authors: Qishuo Hua, Lyumanshan Ye, Dayuan Fu, Yang Xiao, Xiaojie Cai, Yunze Wu, Jifan Lin, Junfei Wang, Pengfei Liu

Affiliations: SJTU, SII, GAIR

Venue: arXiv preprint

Year: 2025

Code Repository: https://github.com/SII-GAIR/SIIContext

Pages: 28

研究摘要

人类社会性的本质根植于关系的网络之中，马克思曾言"人的本质是一切社会关系的总和"。这一洞察揭示了一个深刻的道理：个体并非孤立存在，而是在与周遭实体持续互动的语境中被塑造和定义的。当计算机与人工智能进入人类生活后，这种"语境"不再局限于人与人之间的互动，而是扩展到了人与机器之间的交互领域。一个核心问题随之浮现：机器如何才能更好地理解我们所处的情境和意图？这正是本文所探讨的"语境工程"（Context Engineering）的根本出发点。

本文作者提出了一个引人深思的论点：尽管语境工程常被视为智能体时代的新兴概念，但其相关实践实际上可以追溯到二十多年前。自1990年代早期以来，语境工程经历了数个截然不同的历史阶段，每个阶段都由机器智能水平的跃升所驱动。从早期围绕原始计算机构建的人机交互（HCI, Human-Computer Interaction）框架，到今天由智能体驱动的人机智能交互（HAI, Human-Agent Interaction）范式，再到未来可能出现的人级乃至超人级智能，语境工程始终在回应同一个核心挑战——如何弥合人类意图与机器理解之间的鸿沟。

作者将这一挑战重新框定为"熵减过程"（entropy reduction）。人类在交流时具备一种奇妙的能力：听者能够通过共享知识、情感线索和情境感知主动填补信息空白，从而降低通信中的信息熵。然而，至少就目前而言，机器尚不具备这种能力。因此，语境工程的核心"努力"在于将高熵的人类情境与意图预处理为低熵的机器可理解表示。机器越智能，其语境处理能力越强，人机交互的成本就越低。这一洞见构成了贯穿全文的理论主线。

本文的核心贡献体现在三个层面。首先，作者将语境工程置于更广阔的历史视角中，追溯其在现代智能体出现之前的起源，纠正了学界普遍将其视为近期发明的误解。其次，作者提出了一个系统的、广义的理论框架，包括从熵减视角对语境工程本质的界定，以及一个反映技术演进的四阶段进化模型。最后，作者通过比较不同阶段的典型实践，提出了一般性的设计考量，为未来智能系统的开发提供指导。

本文的意义不仅在于对历史脉络的梳理，更在于对未来方向的预判。随着机器智能持续进步，人类将逐步从显式语境管理中解脱出来，转而由机器承担更多的语境解释、推理乃至构造职责。作者描绘了这样一个愿景：当机器智能接近甚至超越人类认知水平时，AI系统不仅能理解我们，还可能揭示和拓展我们对自身的理解——一种可能的"上帝视角"（god's eye view）对我们的意图的洞察。

理论框架

语境的本质：从哲学洞察到形式化定义

本文的理论建构始于一个深刻的问题：究竟什么是"语境"？作者援引了Anind K. Dey在2001年提出的奠基性定义："语境是可以用来刻画实体（entity）情境的任何信息。一个实体是指对于用户与应用之间交互相关的人、地点或对象，包括用户和应用本身。"（Dey, 2001b）这一定义强调了语境的多维性质，并为系统化地捕获和利用语境以提升系统适应性和用户体验奠定了基础。

在此基础上，作者提出了形式化的数学表达。设 $E$ 为所有实体的空间（包括用户、应用、对象、环境等）， $F$ 为所有可能的刻画信息空间， $P (F)$ 为 $F$ 的幂集。对于任意实体 $e \in E$ ，定义情境刻画函数：

Char : E \to P (F)

其中 $Char (e)$ 返回刻画实体 $e$ 的信息集合。这一形式化捕获了"语境"的核心直觉：每个参与交互的实体都携带着丰富的情境信息，而完整的语境正是这些信息的聚合。

交互（interaction）则被定义为任何可观察的用户与应用之间的互动，既包括显式动作（如点击、命令），也包括隐式行为（如注意力模式、环境调整）。基于这些概念，语境被形式化定义为：

C = ⋃_{e \in E_{rel}} Char (e)

这里 $E_{rel} \subseteq E$ 表示与当前交互相关的实体集合。这个公式简洁而深刻地表达了语境的本质：它是所有相关实体情境刻画的并集。作者特别以Gemini CLI为例阐释了这一形式化——当用户输入"帮我搜索相关文档"时， $E_{rel}$ 可能包含用户、Gemini CLI应用、终端环境、外部工具、记忆模块和后端模型服务，而 $C$ 则是这些实体各自刻画的总和。

语境工程的形式化

语境工程被定义为系统性地设计、组织和管理语境信息，使机器能够更好地理解并提升任务表现的过程。其形式化表达为：

CE : (C, T) \to f_{context}

其中 $C$ 表示原始语境信息， $T$ 表示目标任务或应用领域， $f_{context}$ 是由此产生的语境处理函数，它变换和优化语境表示以提升任务表现。这个函数本身是一个灵活的组合：

f_{context} (C) = F (ϕ_{1}, ϕ_{2}, . . ., ϕ_{n}) (C)

其中 $F$ 是组合函数， $ϕ_{i}$ 代表各种语境工程操作。作者强调，这个定义刻意避免了将语境工程局限于任何特定技术或时代——无论是1990年代的原始计算机还是2025年的智能体，根本挑战始终不变：如何使语境和意图被准确理解。

四阶段进化模型

本文最具理论洞察力的贡献之一是提出了语境工程的四阶段进化模型，该模型将机器智能的发展与语境工程的范式转换紧密联系起来。每一阶段都对应着机器智能的一次质的飞跃，并由此引发人机交互界面的根本性革命。

语境工程 1.0（原始计算时代，1990年代-2020）：这一阶段的机器仅具备极其有限的语境解释能力，能够处理结构化输入和识别简单的环境线索，但缺乏对意义或意图的深层理解。人机交互依赖于僵硬的预定义格式，如从菜单中选择或使用简单的传感器数据作为输入。所有语境都必须被显式准备并翻译为机器可直接处理的格式。设计师扮演着"意图翻译者"的角色，将复杂的人类意图转化为结构化、机器可读的格式。

语境工程 2.0（智能体中心时代，2020年至今）：以GPT-3的发布为转折点（Floridi and Chiriatti, 2020; Brown et al., 2020），这一阶段的机器展现出中等程度的智能，能够理解自然语言输入并推断部分隐含意图。用户可以通过对话表达需求，系统也能解读更多的底层含义。语境不再局限于显式定义的信号，它可以包含模糊和不完整的信息。智能体通过高级语言理解和上下文学习主动推理语境空白，提供更适应性和响应性的交互。

语境工程 3.0（人级智能，未来）：随着预期中的突破，智能系统将接近人级的推理和理解能力。语境工程将超越当前模式，使智能体能够像人类一样感知语境并同化高熵信息。可解释语境的范围将显著扩展，涵盖社会线索、情感状态和更丰富的环境动态。这将实现真正自然的人机协作，AI作为知识渊博且高效的同伴。

语境工程 4.0（超人智能，推测性）：当智能系统超越人类能力时，它们将拥有"上帝视角"，比人类自身更深刻地理解人类意图。传统的客体-主体关系将被颠倒：不再是机器被动适应人类定义的语境，而是机器主动为人类构建新语境，揭示隐藏需求并引导人类思维。这一转变的迹象已经出现，例如在围棋领域，职业棋手正在从AI那里学习新颖的、超人类的策略。

这个四阶段模型不仅仅是技术史的分期，它揭示了一个深刻的规律：机器智能的每一次质变都会触发人机交互界面的根本革命。不是渐进式的改进，而是一系列根本重塑人类与机器沟通方式的范式转变。基于这一反复出现的模式，作者为我们提供了一个理解语境工程过去、现在和未来的有力透镜。

技术架构

从传感器到语义：语境收集与存储的演进

语境工程的技术实现横跨收集、管理、使用三个核心维度。在1.0时代，语境收集主要依赖单一设备——桌面计算机或早期智能手机——使用有限的传感器（GPS、时钟、键盘/鼠标事件）或记录使用模式的应用日志。存储策略主要是本地化的：语境数据通常记录为日志文件或本地文件系统中的结构化文档，临时状态保存在内存缓存或临时文件夹中，系统关机时即被丢弃。尽管一些系统尝试将语境上传到中央服务器，但高延迟和不稳定的网络连接严重制约了这类努力（Satyanarayanan, 2001）。

随着技术进步，语境收集演变为跨多终端的分布式架构，涵盖智能手机、可穿戴设备、家庭传感器、云服务和第三方API。智能体将多模态信号整合为连续的语境流（Baltrusaitis et al., 2019）。存储实践也呈现出分层架构的特征，根据数据的预期用途确定存储策略：短生命周期或频繁访问的数据缓存于快速访问内存或边缘节点以最小化延迟；需要中期保留的数据（如活动记录或用户偏好）存储在本地嵌入式数据库（如SQLite、LevelDB、RocksDB）或OS支持的安全存储中；对于长期持久化、可扩展性和跨设备同步，则采用云存储平台和远程服务器数据库。

对于代码智能体这类需要长时间运行且常跨越多个会话的任务，仅依赖上下文窗口是不可行的，因为上下文窗口既是短期的又是容量有限的。为解决这一问题，系统周期性地将任务状态和进度存入长期记忆，使智能体在中断后能够通过恢复相关语境继续工作。Claude Code展示了这一实践：它维护结构化笔记，将关键信息周期性地写出上下文窗口到外部记忆，并在需要时检索。这种策略提供了一种轻量但持久的记忆形式，使智能体能够跟踪进度并避免复杂任务中的信息丢失。

语境管理的三重维度

文本语境处理构成了语境管理的基础。作者考察了几种常见的设计方案及其权衡。标记时间戳的设计为每条信息附加时间戳，保留生成顺序，这种方法在聊天机器人和用户活动监控中很流行，因其简单且维护成本低。然而，时间戳仅保留时间顺序而缺乏语义结构，难以捕获长距离依赖或高效检索相关信息。随着交互累积，序列线性增长，导致存储和推理的可扩展性问题。

按功能和语义属性标记的设计则为每条语境信息显式标记功能角色（如"目标"、"决策"、"行动"），使每条条目更易于解释。近期系统支持从多个维度进行标记，包括优先级、来源信息等，从而支持更高效的检索和语境管理。尽管这有助于澄清每条信息的含义，但它可能略显僵化，限制了更灵活的推理或创造性综合。

问答对压缩将语境重构为独立的问题-答案对以提高检索效率，特别适用于搜索引擎或基于FAQ的系统。然而，它打断了原始思路的流动，使其不太适合需要全面理解语境的任务，如总结或推理。层级笔记将信息组织为树状结构，宽泛概念分支为越来越具体的子要点。虽然这种结构有助于清晰呈现思想，但它主要反映信息如何分组而非思想如何逻辑连接，诸如因果关系或证据与结论等关系通常未被表示。

多模态语境处理是2.0时代的核心挑战。语境在基于LLM的系统中正变得越来越多模态，包括文本、图像、音频、视频、代码、传感器数据甚至环境状态。核心挑战在于这些模态的异质性：它们在结构、信息密度和时间动态上各不相同。文本是离散且序列的；图像是高维且空间的；音频是连续的且随时间展开的。

作者识别了三种常见策略。第一种是将多模态输入映射到可比较的向量空间，通过各自的编码器处理每种模态，然后通过学习的投影层映射到共享的嵌入空间。在这个空间中，来自不同模态的语义相关内容被拉近，无关内容被推远（Peng et al., 2023; Jaegle et al., 2021; Lv et al., 2024）。第二种是将不同模态组合进行自注意力处理，模态特定的token在统一的Transformer架构中联合处理，允许文本和视觉token在每一层相互关注（OpenAI, 2024; Anthropic, 2025a）。第三种是使用交叉注意力让一种模态直接关注另一种模态的特定部分，特征作为查询而另一模态的特征作为键和值（Vaswani et al., 2017; Yasunaga et al., 2023; Alayrac et al., 2022b）。

语境组织需要有效的分层记忆架构。Andrej Karpathy将LLM类比为操作系统：模型如同CPU，上下文窗口如同RAM——快速但容量有限的工作记忆。正如操作系统决定加载什么数据到RAM，语境工程决定什么信息应进入窗口以进行有效推理。基于时间相关性和重要性将记忆分离为不同层次，使系统能够快速访问近期相关信息，同时在更稳定、长期的存储中保留有价值的知识。

短期记忆被定义为具有高时间相关性的语境子集，由处理函数选择： $M_{s} = f_{short} (c \in C : w_{temporal} (c) > θ_{s})$ ，其中 $w_{temporal} (c)$ 是语境元素的时间相关性权重函数， $θ_{s}$ 是短期记忆的时间相关性阈值。长期记忆则是经过处理和抽象的高重要性语境子集： $M_{l} = f_{long} (c \in C : w_{importance} (c) > θ_{l} \land w_{temporal} (c) \leq θ_{s})$ ，其中 $w_{importance} (c)$ 是重要性权重， $θ_{l}$ 是长期记忆的重要性阈值。从短期到长期记忆的转移被定义为 $f_{transfer} : M_{s} \to M_{l}$ ，代表巩固过程。

语境隔离是另一重要策略。子智能体（subagent）提供了一种绕过语境限制同时降低语境污染风险的方法。Claude Code的子智能体系统展示了这一原则：每个子智能体是具有自己独立上下文窗口、自定义系统提示和受限工具权限的专门AI助手。当任务匹配子智能体的专长时，主系统可以将其委托给该单元，该单元独立运行而不会污染对话的主语境。这可以沿功能维度（如分析、执行、验证）或层级（如规划、实现、审查）实现隔离。

语境抽象，或作者所称的"自烘焙"（self-baking），是区分记忆存储与学习的核心能力。原始语境（如对话轮次、工具输出、检索文档）会快速累积。如果不加处理，增长的历史会迅速淹没系统，使其难以识别对未来推理或决策真正重要的信息。语境抽象将原始语境转换为更紧凑、结构化的表示。这模拟了人类的认知过程：情景记忆产生语义记忆，重复的行为被抽象为习惯。没有自烘焙，智能体仅仅是回忆；有了自烘焙，它们才能积累知识。

当前系统通常采用层级记忆架构：在基础层存储原始语境以确保细粒度细节可访问；随着语境量增加，这些原始条目被逐步总结为更抽象的表示，然后传递到下一层。新信息通常进入最低层并逐渐被"烘焙"向上，使系统能够扩展而不压垮上下文窗口，同时仍保留指向原始细节的可检索链接。

另一种方法是添加自然语言摘要，系统以原始非结构化形式存储完整语境，同时周期性地生成摘要提供压缩视图。当摘要数量增长时，系统可以应用多级总结（将旧摘要总结为更高层概览）或基于时间或重要性丢弃较不有用的摘要。更高级的方法是使用固定模式提取关键事实，将关键信息提取到预定义格式中以便更容易访问和推理。CodeRabbit在代码审查前构建结构化案例文件，编码跨文件依赖、历史PR信息和团队特定规则，使AI能够推理完整的系统语境而非孤立的文件变更。

实验评估

语境工程实践的比较分析

本文的"实验评估"并非传统意义上的基准测试，而是通过系统性的比较分析来验证其理论框架的有效性。作者构建了丰富的对比维度，从多个角度审视语境工程1.0与2.0的异同。

维度	语境工程 1.0	语境工程 2.0
时间期	1990年代–2020	2020–至今
技术背景	普适计算、语境感知系统、HCI	大语言模型、智能体、提示工程
典型系统	Context Toolkit、Cooltown、ContextPhone	ChatGPT、LangChain、AutoGPT、Letta
语境模态	位置、身份、活动、时间、环境、设备状态	Token序列、检索文档、工具API、用户历史
核心机制	传感器融合、规则触发器	提示、RAG、CoT、记忆智能体
语境容忍度	相对较低	相对较高
类人程度	相对较低	相对较高

这一比较揭示了一个清晰的演进脉络：从结构化、低熵输入到自然语言、高熵输入；从被动感知到主动理解；从人类适应机器到机器适应人类。

在多模态语境收集方面，作者提供了当代设备的详细分类：智能手机收集文本、图像、音频、位置、触摸信息；个人计算机收集文本、图像、按键、光标信息；智能手表收集心率、运动、音频；智能眼镜/AR头显收集视频、注视、语音、场景语境；脑机接口收集神经信号、情绪；环境系统如家庭IoT设备收集环境、声音、运动信息。这种丰富的传感器生态标志着语境收集从单一来源向多元融合的范式转变。

语境容忍度的提升：从高熵到低熵的转换

一个关键的"实验"维度是系统对原始语境的容忍度。在1.0时代，输入被限制为简单的结构化信号，如GPS坐标、一天中的时间或预定义的用户状态。这些特征易于处理，但要求开发者预先定义什么算作有意义的语境。相比之下，2.0时代的系统能够从类似自然人类表达的信号中解释语境，如自由文本、图像或视频。这一转变不仅仅是添加新的输入类型；它反映了系统处理混乱、模糊和不完整数据能力的深层提升。借助基础模型和多模态感知的进步，这些系统现在可以处理以前被认为过于原始或非结构化的输入。结果，语境可以直接以其原生形式被摄取，无需繁重的预处理。

在语境理解与利用方面，1.0时代的系统通常在简单的条件-动作规则下运行，感知预定义信号并触发固定响应。例如，"如果位置是办公室，则静音手机。"这些系统根据你在哪里做出响应，但不根据你在做什么。相比之下，2.0系统旨在主动解释用户在做什么并协作实现共享目标。例如，当你在撰写研究论文时，系统可以分析你之前的段落和当前写作意图来建议合适的下一节。作者将这一转变概括为从"语境感知"（context-aware）到"语境协作"（context-cooperative）的发展。

语境选择的有效性

作者还讨论了语境选择的经验观察：AI编码性能通常在上下文窗口超过约50%满度时下降，表明过多和过少的语境都会降低效果。没有稳健的过滤，智能体有被自己的记忆淹没的风险，这是现代形式的"语境过载"。有效语境选择因此成为一种"注意力之前的注意力"——选择什么值得被关注。

语义相关性选择通过向量编码和最近邻搜索实现，允许语义相关的项目即使在没有精确关键词匹配的情况下也能被发现。逻辑依赖性处理当前任务直接依赖先前步骤信息的情况，如MEM1系统通过显式记录推理轨迹并链接到早期依赖步骤，形成跨记忆条目的结构化依赖图。新近性和频率因素基于简单启发式：最近使用或频繁访问的项目更可能被再次检索。重叠信息过滤则在多条信息传达相同含义时，过滤掉较旧或较不详细的条目。用户偏好和反馈使系统能够随时间适应用户习惯，跟踪用户如何与信息交互并用它调整记忆条目的重要性或权重。

案例研究

Gemini CLI：工程化语境的实践典范

Google的Gemini CLI提供了一个语境工程如何落地的代表性案例。其核心机制是GEMINI.md文件——一个Markdown规范，记录项目背景、角色定义、所需工具和依赖、编码约定等。语境通过文件系统层次结构组织：GEMINI.md文件可以存在于用户主目录、项目根目录或子目录中，实现信息的继承和隔离。

在收集层面，CLI在启动时自动加载静态信息（如系统提示、当前项目环境、祖先或后代GEMINI.md文件）；在交互过程中，它从持续对话历史中增量累积动态语境。在管理层面，文件系统本身充当轻量级数据库，通过用AI生成的摘要替换长交互历史来压缩语境。这些摘要遵循预定义格式，保留对话的关键方面（如总体目标、关键知识、文件系统状态、近期行动和当前计划），确保一致性。

Gemini CLI的设计展现了语境工程的几个关键原则：分层继承使语境能够按范围组织，从全局到局部；静态与动态分离使系统能够在不同阶段获取不同类型的语境；自动压缩确保长期交互不会压垮系统；预定义格式保持摘要的结构化和一致性。

Tongyi DeepResearch：长程语境的生命周期管理

通义深度研究智能体旨在协助用户解决开放性、知识密集型的查询，如涉及多个事件和交织关系的推理任务。其运作分为四个主要步骤：基于用户查询搜索网络、从相关页面提取关键信息、生成新的子问题以指导进一步搜索、最后整合多来源证据形成连贯答案。这一周期常持续多轮直到不确定性降低并形成完整的证据链。

与短轮次对话智能体不同，深度研究面临极长交互历史的挑战：直接追加所有观察、思考和行动会迅速超出上下文窗口。为克服这一限制，通义深度研究采用了系统性的语境工程。在探索过程中，智能体周期性地调用专门的总结模型将累积历史压缩为紧凑的推理状态，这不仅保留关键证据，还突出缺失信息和下一步方向。后续搜索和推理基于这些压缩的"语境快照"而非完整的原始历史。通过这种方式，系统建立了清晰的语境生命周期：从收集和累积信息，到周期性的压缩和抽象，再到基于摘要的推理和重用，使其能够突破语境约束并实现可扩展的长程研究能力。

这一案例特别展示了"自烘焙"概念的实际应用：原始语境不是被简单保存，而是被主动地消化、提炼和重组为更高级别的知识表示，从而使系统能够在远超原始语境窗口限制的时间尺度上运作。

脑机接口：语境收集的前沿探索

脑机接口（BCI, Brain-Computer Interface）为语境工程提供了一条新颖的路径，通过实现更先进的语境收集。与传统依赖语言输入的方法不同，BCI可以直接捕获神经信号，这带来了两个独特优势。首先，它们允许收集更丰富的语境维度，如注意力水平、情绪状态或认知负荷——这些因素往往难以通过外部行为单独观察。其次，它们提供了更便捷的语境收集方式，减少了显式用户操作的需求，通过神经活动实现更即时的输入。

尽管当前技术对大脑信号的理解仍较粗糙，噪声和不稳定性仍是重大挑战，但BCI凸显了语境工程可能演进的一个方向：将语境收集从外部环境扩展到用户的内部认知状态。这代表了语境概念的根本扩展——从"用户说了什么"和"用户在哪里"到"用户在想什么"和"用户感受如何"。

综合价值与局限

理论意义与实用影响

本文的理论意义在于它从根本上重构了我们理解语境工程的方式。通过将这一领域置于超过二十年的历史脉络中，作者纠正了一个普遍的误解——即语境工程是LLM时代的发明——并揭示了其作为人机通信基本方面的持续演化本质。四阶段进化模型提供了一个概念透镜，使我们能够将分散的技术发展（从传感器网络到提示工程，从RAG到记忆智能体）统一在一个连贯的理论框架下。这种历史纵深不仅赋予当前实践以意义，也为预测未来发展提供了依据。

从实用角度看，本文提出的设计考量（收集、管理、使用三维度）为构建更智能的交互系统提供了系统性的指导。最小充分性原则和语义连续性原则尤其有价值：前者提醒我们语境的价值在于充分性而非数量，后者强调语境的目的是维持意义的连续性而非数据的连续性。这些原则有助于开发者在设计系统时做出更明智的权衡。

优势与局限

本文最突出的优势是其宏大的历史视野和理论雄心。作者成功地将看似分散的多个子领域（HCI、普适计算、提示工程、RAG、多模态学习、记忆系统）编织成一个连贯的叙事，展示了它们共同的深层结构。熵减视角尤其精妙——它将技术性的语境处理问题与信息论的基本概念联系起来，提供了一个既严谨又直观的理解框架。

此外，本文对2.0时代工程实践的系统梳理具有很高的参考价值。从KV缓存的优化技巧到多智能体协作的模式，从语境选择策略到工具设计的经验法则，这些内容源于实际系统构建的经验，对从业者具有直接的指导意义。

然而，本文也存在一些局限。首先，作为一篇概念性和综述性的论文，它缺乏严格的定量实验来验证其理论主张。虽然作者引用了大量文献和系统实例，但四阶段模型的预测能力尚未经过系统性检验。其次，对4.0时代的讨论带有较强的推测性质，虽然这种前瞻性思考有其价值，但也可能削弱理论的严谨性。第三，本文对语境工程1.0的讨论虽然具有历史价值，但对当代AI从业者而言，如何将这些早期洞见具体地应用于当前系统开发，尚需更多的桥梁性工作。

更广泛的含义

本文暗示了一个更广泛的范式转变：随着机器智能进步，人类在语境工程中的角色将从主动的"工程师"逐渐转变为被动的"被服务者"。这一转变既有解放性（降低人机交互成本）也有潜在风险（减少对语境的控制、增加对机器解释的依赖）。作者提出的"数字在场"（Digital Presence）概念——个体的语境可以持续、演化，甚至在人离开后仍通过AI系统与世界互动——触及了深刻的哲学和伦理问题，这些问题将在未来变得越来越紧迫。

延伸阅读与思考

基础工作

本文建立在一系列重要的基础工作之上。Anind K. Dey在2001年的开创性工作（Dey, 2001a, 2001b）提供了语境感知计算的理论基础，其Context Toolkit（Salber et al., 1999）实现了模块化的语境获取、解释和交付框架。Mark Weiser在1991年提出的普适计算愿景（Weiser, 1991）和Schilit与Theimer在1994年关于主动地图信息传播的工作（Schilit and Theimer, 1994）共同奠定了语境工程1.0时代的概念基础。在2.0时代，GPT-3的发布（Brown et al., 2020; Floridi and Chiriatti, 2020）标志着一个转折点，而提示工程（Liu et al., 2021; Reynolds and McDonell, 2021）、RAG（Lewis et al., 2020）、工具调用（Yao et al., 2022; Schick et al., 2023）和长期记忆机制（Wu et al., 2022; Dai et al., 2019）构成了当代语境工程的技术栈。

未来方向

本文开启了多个有前景的研究方向。终身语境工程（lifelong context engineering）是一个特别重要但技术上极具挑战性的领域——如何在保证语义一致性、可扩展性和有效检索的前提下，维护跨越数月甚至数年的个人数字记忆？这需要突破性的存储架构、新的注意力机制（超越Transformer的二次复杂度限制），以及能够主动管理知识（添加、修改、遗忘）的语义操作系统。

另一个方向是更自然的语境收集。当前系统仍主要依赖显式用户输入，这既繁琐又低效。脑机接口、情感计算和环境感知技术的进步可能最终实现"零摩擦"的语境收集，使系统能够在用户无需显式表达的情况下理解其状态和意图。

语境选择策略的改进也至关重要。当前系统的表现仍然有限：有用的信号可能被遗漏，而嘈杂或冗余的信息往往持续存在。需要更精确和自适应的策略，持续优化保留、丢弃或强调的内容。

开放问题

这一领域最深层的未解挑战包括：如何定义和度量"语境理解"的质量？如何在保护隐私的前提下实现全面的个人语境收集？当AI系统比人类更深刻地理解自身时，人类的主体性和自主性将如何被重新定义？如何构建能够解释其推理链、修正错误并从失败中学习的可信语境系统？

反思

本文最令人深思的方面是其对"人的本质"的重新诠释。当马克思说"人的本质是一切社会关系的总和"时，他或许未曾想到这一命题会在数字时代获得如此字面化的实现。本文提出的"数字在场"概念——人类语境的持续存在和演化——既是一种令人着迷的技术可能性，也是一个需要谨慎对待的哲学命题。如果我们的语境可以独立于我们的肉体存在而持续与世界互动，那么"我们"究竟是什么？如果机器能够比我们自己更深刻地理解我们的意图，那么"自我认知"的边界又在哪里？这些问题没有简单答案，但本文为我们提供了一个思考这些问题的有力框架。

或许，语境工程的终极意义不在于让机器更好地理解我们，而在于通过这一过程，让我们更深刻地理解自身——理解我们是如何被我们的语境所塑造，以及我们如何通过塑造语境来塑造自己。

Topics: