一条提示词干不完的活：Prompt Chaining 实战指南

大多数人用 AI 的方式是把所有要求塞进一条提示词里，然后祈祷输出能对。短任务还行，稍微复杂一点就崩：数字对不上、逻辑跳步、格式乱套。你以为是模型不行，其实是你的调用方式不对。

Prompt Chaining 的思路很简单：把一个大任务拆成几个小步骤，每一步的输出喂给下一步当输入。不是一条提示词搞定一切，而是一条链搞定一切。

为什么一条提示词不够用

先说清楚问题。单条提示词处理复杂任务时，会撞上四堵墙。

第一堵墙：上下文溢出。AI 的工作记忆是有限的，把一份 40 页的年度报告扔进去，要求它同时提取数据、分析战略、写简报，模型到后半段就开始忘事。前面提取的数字，写到结论时已经对不上。

第二堵墙：错误累积。一条长提示词里，推理的第二步如果算错了，第三步、第四步全部跟着错，而且你没法在中间拦住它。就像电子表格里一个单元格写错了公式，后面所有引用这个单元格的结果全废。

第三堵墙：职责混杂。提取、分析、写作是三种完全不同的能力。让一个模型同时做这三件事，等于让一个人边读财报边写PPT边回答老板提问，哪件都做不好。

第四堵墙：无法校验。单条提示词跑完，你只看到最终结果，中间过程是个黑箱。提取的数字对不对？分析有没有偏差？你不知道，只能盲审。

Prompt Chaining 解决的就是这四个问题。每一步只做一件事，做完你能检查，检查过了再把结果喂给下一步。

三种核心链模式

链式调用不是一种模式，是三种。用错模式比不用还糟。

模式一：顺序链。最简单的形式，A→B→C，每步的输出是下步的输入。适合有天然线性顺序的任务。

举一个竞争分析的案例。小张需要在周一前分析竞争对手 40 页的年度报告，提取关键财务数据，判断战略意图，写一份高管简报。他一开始把所有要求塞进一条提示词，得到的简报数字模糊、分析肤浅、格式随意，周末全花在修补上。

他的同事小陈用三条链式提示词完成。第一步提取：告诉模型 "你是财务分析师，从这份报告中提取近三年营收和利润数据、CEO 提到的三大战略优先级、新产品和市场扩张、风险和挑战，输出为结构化 JSON"。第二步分析：把第一步的 JSON 喂给模型，"你是竞争战略顾问，基于这些数据判断对我司最大的三个威胁和两个机会"。第三步写作：把分析结果喂给模型，"你是管理顾问，基于这份战略分析写一份两页高管简报，开头放最重要的结论，列出三个威胁两个机会并附具体证据，结尾给三个行动建议。语气直接果断，禁止套话。"

结果差异在哪？第一步只管提取，模型把全部注意力放在数字准确性上。第二步拿到的不是原始 40 页报告，而是干净的结构化数据，分析精度自然高。第三步拿到的不是夹杂着原始数据的推理过程，而是清晰的战略判断，写作质量直接上台阶。

模式二：条件路由链。先分类，再分流。第一步判断输入属于什么类型，然后走不同的处理链。适合客服、内容审核、意图检测等场景。

客服系统的实际部署长这样。第一条提示词做分类："将这条客户消息归入以下类别之一：账单问题、程序缺陷、登录问题、新功能建议、流失风险、常见问题。只输出类别名。"分类结果决定走哪条分支。

如果分类结果是“程序缺陷”，走技术支持链："你是一线技术支持，确认具体问题，用通俗语言解释原因，给出三个排查步骤，告诉用户不行的话怎么办。200字以内。"如果分类结果是“流失风险”，走挽留链："你是客户成功经理，真诚理解用户不满，问一个澄清问题了解真正原因，提及一个他们实际使用过的功能价值，给出适当的解决方案。不要强推。"

关键是：账单投诉永远不会收到挽留话术，退订风险永远不会收到排障清单。路由步骤就是智能本身，专业化的分支链就是专长。

模式三：并行链。多个 AI 调用同时跑，各管一个维度，最后合并结果。适合需要多角度分析的研究任务。

分析一家公司时，你可以同时发起三个调用：一个分析财务健康度，一个评估技术竞争力，一个审查法律和合规风险。三个调用并行跑完，最后一条提示词把三个维度的分析综合成一份整体评估。

并行链的优势是速度。三个5秒的调用并行跑，总共只花 5 秒加一次合并调用的时间，而不是串行的 15 秒以上。

实操模板：从零搭建你的第一条链

假设你要分析一份产品用户反馈报告。

链节点1（提取）："你是数据分析师。阅读以下用户反馈，提取每条反馈的核心问题、情感倾向（正面/中性/负面）、涉及的产品模块。输出为 JSON 数组，每个元素包含“文本摘要”、“情感分析”、“模块”三个字段。"

链节点2（分类聚合）："你是产品经理。基于以下结构化反馈数据 [插入节点 1 输出]，按产品模块分组统计，计算每个模块的负面反馈占比。输出三列：模块名、负面反馈数、负面占比。按负面占比降序排列。"

链节点3（建议）："你是产品总监。基于以下模块级反馈统计 [插入节点 2 输出]，针对负面占比最高的三个模块，各给出一个具体改进方案，包含目标、关键行动和预期效果。"

三条提示词，各自只做一件事。你可以在每个节点停下来检查输出，发现哪步有问题直接重跑那一步，不用从头来。

避坑指南

链式调用最常见的三个坑。

第一，信息衰减。链越长，到后面节点保留前面信息的能力越弱。解法是：每个节点的提示词里只放它需要的信息，不要把全部历史都传下去。第三步不需要看原始 40 页报告，只需要看第二步的分析结论。

第二，格式不兼容。节点 1 输出的是一段文字，节点 2 期望的是 JSON，链就断了。解法是：每个节点的提示词明确指定输出格式，并在下个节点的提示词里声明输入格式。格式是节点之间的接口协议，必须提前设计。

第三，过度链化。三步能搞定的事不要拆成十步。每多一步就多一次API调用成本、多一个潜在失败点、多一份中间输出要审核。我自己的原则：能一条提示词搞定的任务（比如翻译一段话），不要链化。需要两种以上不同能力（提取+分析+写作）的任务，链化收益明显。五步以上的链，考虑是否某些步骤可以合并。

成本账

链式调用会增加 API 调用次数，但每次调用的 Token 数更少、输出质量更高。实际算下来，总 Token 消耗可能持平甚至更低，因为每步的提示词更短更精确，不用在一个超大提示词里塞大量上下文。

以竞争分析为例：一条超大提示词可能需要 4000+ Token 的输入，输出 2000 + Token 但质量参差不齐。三条链式提示词，每条输入 800 到 1200 Token，输出 500 到 800 Token，总输入约 3000 Token，总输出约 1800 Token，但每个输出都是高精度。总成本可能相当，但审核和返工成本大幅下降。

工具选择

手动复制粘贴也能跑链，但生产环境需要自动化。几个选择：

LangChain 是最成熟的框架，支持所有链模式，文档丰富，但学习曲线陡。DSPy 更学术化，自动优化提示词，适合研究场景。OpenAI 的 Agents SDK 原生支持 handoff 机制，相当于内置了条件路由链。Anthropic 的 Programmatic Tool Calling 可以批量并行调用，天然适合并行链模式。国内的话推荐字节的扣子。

为什么一条提示词不够用

三种核心链模式

实操模板：从零搭建你的第一条链

工具选择

相关文章

Vercel 发布 eve 开源智能体框架：Agent 界的 Next.js 终于来了

谷歌说 AI 不该假装确定：忠实不确定性如何终结幻觉困局

LangChain 让 Agent 的技能不再只靠提示词：Interpreter Skills 把确定性写进代码

评论区