Prompt Evolution ：迭代提示词设计让多智能体性能提升 30%

提示词（ Prompt ）的质量，而非模型能力，才是决定多智能体系统表现的关键变量。这是软件工程师 Ajay Dhanysi 在重构一套超过 250 个 if-else 条件分支的 Apache Beam XML 解析器后得出的核心结论。通过对各智能体提示词的系统性演进，他测得整体工作流效率提升了约 30%，而底层模型在此过程中从未更换。

这套架构的基础是一个基于 Copilot 的多智能体工作流，包含主智能体（ Main Agent ）、分析智能体（ Analysis Agent ）、编码智能体（ Coding Agent ）以及若干评判智能体（ Judge Agents ）。早期版本已能基本运转，但问题持续浮现：分析智能体对 XML 字段的分组时常出现不一致。编码智能体会悄悄引入行为上的细微变化。评判智能体频繁标记出本不应进入该阶段的问题，导致多轮修正循环。这些问题的根源不在于模型推理能力不足，而在于提示词表述不清。

Ajay Dhanysi 将“提示词进化”（ Prompt Evolution ）定义为一种系统性工程实践，而非随机改写直到“感觉更好”。在他的方案中，提示词的演进遵循与生产代码相同的逻辑：依据观测到的失败模式迭代，依据可测量的指标验证，出现退步时回滚。

四个智能体的提示词各有侧重地经历了改造。主智能体原本在协调步骤时偶尔允许执行偏移，改造后明确禁止其生成代码，责任范围收窄为工作流执行的守门人，而非问题求解者，并加入了强制的步骤顺序规则。智能体之间的错误交接随之减少，重新执行的次数也明显缩短。

分析智能体的改造方向是将任务从“解读”变为“提取”。原始提示词允许智能体解释业务逻辑，改造后要求其只输出声明式结果，例如字段分组列表和规则映射，同时明令禁止给出任何优化建议。字段分组的一致性大幅提升，后续评判智能体标记的不匹配数量也显著下降。

获益最大的是编码智能体。原始提示词强调“代码整洁”却没有边界约束，本质上是在鼓励风格自由。演进后的版本把行为等价性（ behavioral equivalence ）设定为不可妥协的硬约束，明确禁止引入新的逻辑路径、快捷方式或抽象层，同时要求保留 Apache Beam 的执行特性，不得改变 XML 遍历语义。

对比前后的提示词版本，差异触目惊心。改造前的提示词只有三行：将给定的 Python 方法重构，让代码更整洁、更易维护，确保行为不变。听起来合理，实则给智能体留下了解释“整洁”含义的空间，也隐含着允许其进行优化尝试和逻辑重组的许可。改造后的提示词从角色定义开始，明确声明这是多智能体重构流水线中的编码智能体，任务是且仅是重构所提供的 Python 方法。随后列出硬约束：所有输入对应的输出值必须保持完全一致。不得引入新的逻辑路径、条件分支或快捷方式。不得优化、简化或重新解读业务规则。不得改变 XML 遍历语义。必须保留 Apache Beam 的执行特性。结构规则进一步要求严格依照分析智能体提供的字段分组进行重构，每个逻辑分组生成一个确定性函数，保留执行顺序和决策边界。输出格式被锁定为纯 Python 代码，不附任何解释性文字，注释仅在必须保留逻辑清晰度时才可使用。最后一条规则颇具工程哲学意味：如果存在任何歧义，停下来请求澄清，而不是猜测。

这个提示词的转变，本质上是将编码智能体从“作者”变成了“编译器”。首次通过率提升、评判智能体的拒绝次数减少，以及向最终批准输出的收敛速度加快，都是可直接观测的结果。 Ajay Dhanysi 估计，仅这一项改造就贡献了系统级 30% 效率提升中的相当大比例。

评判智能体的演进方向则是从“给反馈的评审者”变成“自动化测试套件”。改造后的评判智能体使用二元的“通过/失败”判定逻辑，拥有明确的拒绝标准，并设有迭代次数上限以防止无限循环。这与 XML 验证系统中的正式验证阶段高度同构。

在方法论层面， Ajay Dhanysi 将这套实践提炼为几条可复用的原则。角色清晰性要求每个智能体的提示词都能清楚回答：这个智能体的角色是什么，明确禁止它做什么，它是执行者、分析者、验证者还是协调者，以及是否允许它具有创造性，如果不允许，是否已在提示词中明确禁止。如果两个智能体的职责存在重叠的可能，则至少有一个提示词是欠规范的。

约束编码的逻辑与合同相同：不可谈判的约束必须显式列出，行为等价性等关键要求需要写明，平台特性（如 Apache Beam 的执行特性）需要声明，“希望实现”的目标要与“绝对不能破坏”的规则分开。 Ajay Dhanysi 给出了一个实用的判断标准：如果一个规则是人类评审者会默认存在的，那智能体就需要把它白纸黑字写进提示词。

失败模式驱动的演进是整套方法的核心。智能体重新解读了业务逻辑，就禁止解读。智能体提前进行了优化，就禁止优化。智能体在歧义中猜测，就要求澄清。输出格式出现漂移，就锁定格式。提示词的演进应该是对真实失败的反应，而不是对理论风险的预防。

在架构演进上， Ajay Dhanysi 进一步将单一评判智能体扩展为多智能体评估流水线。任务执行智能体生成待评估的输出，评估协调智能体（ Evaluation Orchestrator ）负责路由而不做任何评判，逻辑与准确性评判智能体、行为正确性评判智能体以及语气与标准评判智能体各司其职，最终由聚合与决策智能体执行算术运算和阈值判断，以 JSON 格式返回结果。每个智能体只评估一个维度，评估结果因此既可复现，又便于排查问题。

这套结构与他在 Apache Beam 重构中应用的原则完全相同：分析、生成与评判三种职责不能共享，必须分离。 30% 的效率提升背后没有魔法，只有对评判逻辑的解耦，以及对提示词的精准外科手术式演进。

相关文章

拜耳用 3 层反思循环把 AI 拉进制药生产线：上下文工程和 harness 工程到底在干什么

Vercel 发布 eve 开源智能体框架：Agent 界的 Next.js 终于来了

谷歌说 AI 不该假装确定：忠实不确定性如何终结幻觉困局

评论区