写规格说明,不写代码:Logic 如何用 500 字 spec 把模型指令遵循率拉高 6 个点

西雅图创业公司 Logic 上线 spec 驱动 Agent 平台,用自然语言规格说明替代复杂工程。实测显示,在 IFBench 基准测试中,仅凭 500 字规范配合其自动化 harness,Gemini 3.1 Pro 性能提升 6 个百分点并登顶榜单。该平台将输入验证、契约执行等基础设施产品化,支持主流模型路由。对于正在开发 Agent 的团队,这证明优化约束描述比盲目升级模型更有效,目前已有超 250 家机构使用。

发布于2026年5月4日 22:20
编辑零重力瓦力
评论0
阅读12

Logic 这个平台值得所有做 Agent 的人关注,因为它用事实证明了一件事,写好 spec 比换更好的模型管用。

一件事

4 月 27 日,西雅图创业公司 Logic 宣布正式上线 spec-driven 的 Agent 平台。同一天,他们放出了 IFBench 跑分结果:同一个 Gemini 3.1 Pro 模型,裸跑 77.1%,套上 Logic 的 harness 加 spec 之后 83.3%,直接登顶 Artificial Analysis 的 IFBench 公开排行榜。

6 个点的提升,不需要换模型,不需要加参数,只需要写一段 500 字的规格说明。

为什么这个结果重要

IFBench 是 Allen AI 在 NeurIPS 2025 发表的基准测试,专门测一件事:模型能不能在第一次遇到某个约束条件时,就严格遵守它。294 个任务,每个 prompt 里塞了多个可验证的精确约束,比如 "三句话必须字符数相同但用词全部不同"、"逐行递进缩进"。评分是确定性的,Python 验证器逐条检查,没有部分得分,没有重试机会。

在这个基准上,换一个更强的模型通常只移动几个百分点。而 Logic 的实验表明,给同一个模型加上一个好 spec,移动的幅度比换模型还大。

spec 长什么样

Logic 的核心逻辑是:你写 spec(用自然语言描述 Agent 应该做什么),平台自动生成 schema、测试、工具路由、版本控制、可观测性。spec 本身大约 500 词,核心步骤非常简单:

  1. 仔细阅读 prompt,识别任务和所有约束条件
  2. 先起草回答,关注任务本身
  3. 逐条对照每个约束检查
  4. 不满足就改,直到全部通过
  5. 只返回最终回答,不要解释

对,就是你会给一个认真干活的人类下属说的那些话。问题在于,大多数人给模型写 prompt 的时候,不会写这么详细。

Harness 的角色

spec 是一半,另一半是 Logic 的 harness。它自动做输入验证、结构化输出约束、调用路由、契约执行。这些本来是每个 Agent 项目都要自己搭的基础设施,Logic 把它变成了平台能力。

用 Logic CEO Steve Krenzel 的话说:"两年前每个做 AI feature 的团队都在从零搭 LLM 基础设施,把这种工作正在变成商品,这其实是好事。"(

实操启示

如果你在做 Agent 开发,这个实验给了一个非常具体的行动建议:在考虑换模型之前,先花 30 分钟把你的 spec 写清楚。不是写得更长,是写得更结构化:任务是什么、约束有哪些、检查步骤是什么、输出格式长什么样。

Logic 已经有超过 250 家机构在使用,累计跑了 400 万次 Agent 调用,覆盖医疗、电商、金融安全等领域。平台支持 OpenAI、Anthropic、Google 三家模型路由,免费层可以直接上手。

我的看法

Logic 做的事情本质上是在验证一个假设:Agent 的质量瓶颈不在模型,在于模型外面的那层工程。spec 是 prompt engineering 的升级版,harness 是 context engineering 的产品化。当这两件事结合在一起,同一个模型就能跑出更好的结果。

这个方向和 Anthropic 的 Programmatic Tool Calling、OpenAI 的 Symphony 是同一条脉络:让工程结构承担更多控制责任,把模型解放出来做它擅长的事。区别是 Logic 更激进,它直接说:别写代码了,写 spec 就行。

相关文章

高级提示词实用指南:打造精准高质量 AI 图像
智能体工程
2026年5月9日
0 条评论
小创

高级提示词实用指南:打造精准高质量 AI 图像

文章指出 AI 图像生成效果不佳的根本原因在于提示词质量,而非工具本身。核心观点是使用结构化描述替代模糊指令,将“主体+环境+风格+光线+细节”五个维度纳入提示词。描述越具体, AI 生成方向越明确,随机性越低。常见问题包括概念混搭、关键词堆砌、忽视光线设定等。实用技巧是把提示词当作向朋友描述画面,保持语义连贯。提示词质量直接影响点击率,这种结构化思维与写产品需求文档、设计简报的逻辑相同。

#图像生成
阅读全文
LLM 工作原理: Prompt Engineering 解析
智能体工程
2026年5月9日
0 条评论
小创

LLM 工作原理: Prompt Engineering 解析

大语言模型本质是概率引擎,通过 Token 切分和数字编码逐步预测下一个内容。由于概率采样的非确定性特性,输出存在自然波动,这是设计而非缺陷。温度参数控制输出创意度,最大 Token 数限制回复长度, Top-P 核采样限定选词范围,上下文窗口决定记忆容量。实操建议:温度和 Top-P 只调其一,配合最大 Token 数系统性配置,可有效提升提示词工程的可控性。

#提示词工程
阅读全文
10 条能帮创业者看清方向、赚到钱的 AI 提示词
智能体工程
2026年5月9日
0 条评论
小创

10 条能帮创业者看清方向、赚到钱的 AI 提示词

创业者常将 AI 误用为“打字机”,导致模糊问题换来模糊答案,收效甚微。核心问题不在工具本身,而在提问质量!只有具体的问题才能换来具体的决策方向和盈利路径。文章提供 10 个专门设计的提示词,强调使用前需做好“上下文投喂”这一前置动作。

#提示词工程
阅读全文
互动讨论

评论区

围绕《写规格说明,不写代码:Logic 如何用 500 字 spec 把模型指令遵循率拉高 6 个点》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。