上下文工程:当提示词工程装不下整个智能体时,谁来接管 AI 的 “工作台”

“上下文工程” 正取代 “提示词工程”,成为 AI Agent 开发的核心范式。随着模型能力提升、Agent应用普及及企业合规需求,交互重点从单轮指令转向多步骤工作流中的动态信息编排。该领域涵盖系统指令、用户输入、检索知识、对话历史及工具定义五层结构。由于上下文窗口资源有限且易出现中毒、分心等失败模式,需通过ACE框架实现上下文的自进化与增量更新。实操建议包括外部化状态、按需检索、压缩累积及隔离多Agent上下文。本质上,上下文工程是提示词工程的超集,标志着 AI 开发进入以系统架构和状态管理为主导的工程时代。

发布于2026年5月15日 18:43
编辑零重力瓦力
评论0
阅读0

2025 年 6 月,Shopify CEO Tobi Lutke 发了一条推:“比起提示词工程,我更喜欢上下文工程这个词。”这只是一条推,不是白皮书,不是产品发布,但它一夜间炸了锅。Anthropic 紧跟着发了官方指南《Effective Context Engineering for AI Agents》,Google DeepMind 在开发者文档里用了这个说法。

有人说这是换汤不换药。他们错了。

写一条提示词让模型照做,这是提示词工程。设计一套系统,让模型在多步骤工作流的每一步都能拿到对的上下文,用对的格式,在对的时间,这完全不是同一件事。“提示词工程”从来没能描述这个范围。“上下文工程”能。

为什么是现在

三个变量同时到位了

第一,模型能力终于跟上了。GPT-3.5 时代你得哄着模型走,chain-of-thought、few-shot、格式演示,全是补丁。GPT-4o、Claude Opus、Gemini 2.0 之后,模型能可靠地遵循复杂系统指令,处理 128K+ 上下文窗口,光靠工具 schema 就能调用外部接口。当模型不再是瓶颈,瓶颈就转移到了“你给它什么信息”上。

第二,Agent 改变了游戏规则。单轮对话在生产环境里的占比正在缩小,增长点全在 Agent 上。规划多步工作流、调用工具、检索信息、跨长交互做决策。一个客服 Agent,第一轮需要用户账户历史和产品知识库,第二轮需要退款工具的 schema,第三轮需要保留处理摘要。每一轮的最优上下文都不一样。设计这种动态系统,和写一条提示词,根本不是同一维度的活。

第三,企业跑量需要管理。当 AI 部署到客服、法务、财务分析,你需要可审计、可复现、可回溯。系统指令变成版本控制的配置项,检索知识变成有文档来源和更新频率的数据管道,工具定义变成有访问控制的 API 契约。每一层都能被测试、监控、审计。你可以跟监管说“我们有文档化的上下文组装流水线”,但你不能说“我们写了一条好提示词”。

上下文工程的五层结构

不管你有没有刻意设计,每次和 LLM 交互都涉及最多五层上下文:

  1. 系统指令。定义模型角色、能力和约束的基础提示词。这是最经典的系统提示词设计,依然极其重要。
  2. 用户输入。即时请求或查询。在提示词工程时代这是唯一的焦点,在上下文工程里它只是五分之一。
  3. 检索知识。推理时从外部拉取的信息:文档、数据库、API 结果。这是 RAG 所在的层,也是上下文工程和传统提示词工程区别最大的地方。
  4. 对话历史。先前的对话轮次、工具输出、累积状态。管理这一层意味着决定保留什么、摘要什么、丢弃什么。
  5. 工具定义和 schema。模型可调用的外部工具规格:函数签名、API schema、数据库查询接口。Agent 越多,这一层越是会从“没有”变成“必须”。

提示词工程师优化第一层和第二层。而上下文工程师则要设计系统来编排全部五层。

上下文窗口是 RAM,不是笔记本

Anthropic 的官方指南里有一个极其精准的类比:上下文窗口就像 RAM。有限、昂贵,不管理就会“颠簸(thrashing)”。Transformer 对每对 Token 做注意力计算,n 个 token 产生 n² 的关系对。上下文越长,模型在任意两个 token 间分配注意力的压力越大,中间位置信息的召回能力就开始退化。研究者管这叫“context rot(上下文腐烂)”。

Logic.inc 的生产级指南给出了更残酷的数据:65% 的企业,AI 系统的失败都会追溯到上下文漂移或记忆丢失,不是模型能力问题。你精心写的系统提示词,如果被 30 轮对话历史和冗余的工具输出挤到了窗口边缘,效果和没写一样。

四种上下文失败模式

  1. 上下文中毒(Context Poisoning):模型在某一轮产生了幻觉,下一轮把它当事实引用,错误在对话中不断放大。
  2. 上下文分心(Context Distraction):模型执着于一个不相关的细节,仅仅因为它出现在窗口靠前的位置。位置偏差比你想的大得多。
  3. 上下文混淆(Context Confusion):无关信息拉低了推理质量。更多上下文不等于更好。窗口里噪音多的时候,模型会平均掉所有信号而不是聚焦关键信息。
  4. 上下文冲突(Context Clash):最阴险的一种。不同轮次的指令或事实互相矛盾,模型悄悄取中间值,而不是指出冲突。

诊断这些问题的方法只有一个:在模型出错的那个时刻,检查上下文窗口里到底装了什么。

ACE 框架:让上下文自己进化

上下文工程最前沿的实践不是静态地设计上下文,而是让上下文自己进化。Agentic Context Engineering(ACE)框架是当前最成熟的方案。

ACE 要解决两个现有自改进系统的顽疾:“简洁偏见”和“上下文坍缩”。前者指系统倾向把重要细节过度压缩,最终退化为短而无用的泛泛之词。后者指系统反复重写整个提示词时,会遗忘之前积累的有用知识,导致不稳定的倒退。

ACE 的核心是一个三角色循环:

  1. Generator(生成器):用当前的 playbook 解决任务,标记哪些知识条目有帮助、哪些误导。
  2. Reflector(反思器):分析成功和失败的完整轨迹,提取可操作的教训。
  3. Curator(策展人):把教训转化为增量的 delta 更新,合并到现有 playbook 里。

关键设计:ACE 不维护一个单一的巨型提示词,而是把上下文组织成结构化的 playbook,每个条目是一个可复用的知识单元,带有元数据(ID、帮助次数、误导次数)和内容(策略、概念、失败模式)。增量更新,不推倒重来。定期去重,用语义嵌入去冗余。

结果如何?在基准评测上,ACE 比其他自改进上下文方法高出 +10.6%(Agent 任务)和 +8.6%(金融专业领域),token 成本降低 83.6%。

四步实操:从今天开始做上下文工程

不管你用的是 Claude Code、Codex、OpenClaw 还是自建 Hermes,以下四步是任何人都能立即上手的:

第一步:外部化状态。别把所有东西塞在上下文窗口里。Agent 应该把中间结果、计划、未解决的问题写到外部存储。测试方法:跑到第 50 轮时检查上下文窗口,如果超过一半的 token 对当前步骤没必要,说明你在积累应该外部化的状态。

第二步:按需检索。别在启动时把整个知识库灌进去。用文件路径、查询字符串、标识符作为轻量引用,需要时才拉取。只完整加载那些稳定的、始终需要的信息(流程记忆、高层指令)。按需检索那些庞大的、偶尔需要的(项目文件、历史对话、用户偏好)。

第三步:压缩累积。即便前两步做好了,上下文还是会累积。对旧对话轮次做结构化摘要(保留文件路径、错误消息、已做决策,丢弃已完成的工具输出),比暴力截断效果好得多。

第四步:隔离多 Agent。不同 Agent 处理不同子任务时,给每个 Agent 独立的上下文窗口。Agent A 的工具输出不该出现在 Agent B 的窗口里,除非 B 明确需要。

上下文工程不是提示词工程的替代品,是超集

写出清晰、结构良好的 LLM 指令依然是基本功。系统提示词设计、few-shot 示例选择、输出格式指定,这些没有变得不重要。它们变成了更大学科里的一个组件。

最准确的类比:提示词工程之于上下文工程,就像写 HTML 之于 Web 开发。好的 HTML 没有因为 Web 开发扩展到 JavaScript、数据库、API、部署流水线而变得无关。它变成了更广泛实践的基础技能。

在 2023 年,大部分的 AI 使用技巧聚焦在提示词本身:具体的措辞、结构、示例。在 2026 年,提示词依然重要,但只占生产 AI 系统工作的大约 20%。另外 80% 是检索逻辑、上下文组装、状态管理和评估。把所有这些叫做“提示词工程”,就像把整个 Web 开发叫做“写 HTML”。技术上没错,但越来越误导人。

谁控制了 Agent 的上下文,谁就控制了它的行为。谁控制了它的意图,谁就控制了它的策略。谁控制了它的规范,谁就控制了它的规模。这已经不是提示词的时代了,是工程的时代。

相关文章

如何解决 Hermes QQ 机器人掉线问题
智能体工程
2026年5月14日
0 条评论
零重力瓦力

如何解决 Hermes QQ 机器人掉线问题

Hermes Agent 在接入 QQ 机器人时,常因长时间无业务流量触发 QQ 网关的 idle 超时机制(错误码 4009),导致即使心跳正常也会断线。由于 QQ C2C 场景天然低频,偶发的重连失败易使 Bot 进入“假死”状态。为解决此问题,采用 Hermes 内置的 Watch Dog 服务进行自动化监控:通过 cron job 每 5 分钟检查 Gateway 日志,若发现断连且未成功重连,则自动重启 Gateway。正常运行则静默处理。该方案无需 LLM 参与,零 Token 消耗。

#Hermes Agent
阅读全文
读懂 LLM : AI 是如何“思考”的,又该如何高效使用
智能体工程
2026年5月13日
0 条评论
小创

读懂 LLM : AI 是如何“思考”的,又该如何高效使用

掌握大语言模型(LLM)的核心在于理解其底层机制与交互技巧。首先,Token 是模型处理文本的最小单位,直接影响输入输出长度及费用。默认的非确定性模式赋予模型创意,但也导致结果不可预测。其次,温度、最大 Token 数和 Top-p 三个参数共同调控模型的随机性、回复长度及词汇选择范围,用户可根据精准或创意需求灵活调整。此外,受限于上下文窗口,模型仅能记忆当前对话片段,超出部分会被丢弃。最后,提示词质量决定输出效果,高质量的提示词应包含清晰指令、背景信息及期望格式,通过缩小猜测空间来提升回答的准确度。

#提示词工程
阅读全文
Grok 4.3 被低估的隐藏工作流全解析
AI 新闻资讯
2026年5月13日
0 条评论
小创

Grok 4.3 被低估的隐藏工作流全解析

Grok 4.3 近期更新后,多数用户仍停留在简单问答模式。AI Master 的实操演示显示,这款工具的真正价值在于工作流整合:Fast/Auto/Expert 三档模式分工明确,Expert 模式下追加"什么条件变化会让你改变答案"可逼出明确结论而非模棱两可的套话。深度嵌入的搜索支持一键生成带引用的舆情分析,"反向观点扫描"能在信息茧房中找出盲区。任务功能可设定周期性指令自动运行,相当于零成本的专职信息助理;结构化输出配合内置 Python 执行,上传 CSV 直接出图表,省去本地配置环境的

#Grok#智能体工程
阅读全文
互动讨论

评论区

围绕《上下文工程:当提示词工程装不下整个智能体时,谁来接管 AI 的 “工作台”》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。