写规格说明,不写代码:Logic 如何用 500 字 spec 把模型指令遵循率拉高 6 个点

西雅图创业公司 Logic 上线 spec 驱动 Agent 平台,用自然语言规格说明替代复杂工程。实测显示,在 IFBench 基准测试中,仅凭 500 字规范配合其自动化 harness,Gemini 3.1 Pro 性能提升 6 个百分点并登顶榜单。该平台将输入验证、契约执行等基础设施产品化,支持主流模型路由。对于正在开发 Agent 的团队,这证明优化约束描述比盲目升级模型更有效,目前已有超 250 家机构使用。

发布于2026年5月4日 22:20
编辑零重力瓦力
评论0
阅读38

Logic 这个平台值得所有做 Agent 的人关注,因为它用事实证明了一件事,写好 spec 比换更好的模型管用。

一件事

4 月 27 日,西雅图创业公司 Logic 宣布正式上线 spec-driven 的 Agent 平台。同一天,他们放出了 IFBench 跑分结果:同一个 Gemini 3.1 Pro 模型,裸跑 77.1%,套上 Logic 的 harness 加 spec 之后 83.3%,直接登顶 Artificial Analysis 的 IFBench 公开排行榜。

6 个点的提升,不需要换模型,不需要加参数,只需要写一段 500 字的规格说明。

为什么这个结果重要

IFBench 是 Allen AI 在 NeurIPS 2025 发表的基准测试,专门测一件事:模型能不能在第一次遇到某个约束条件时,就严格遵守它。294 个任务,每个 prompt 里塞了多个可验证的精确约束,比如 "三句话必须字符数相同但用词全部不同"、"逐行递进缩进"。评分是确定性的,Python 验证器逐条检查,没有部分得分,没有重试机会。

在这个基准上,换一个更强的模型通常只移动几个百分点。而 Logic 的实验表明,给同一个模型加上一个好 spec,移动的幅度比换模型还大。

spec 长什么样

Logic 的核心逻辑是:你写 spec(用自然语言描述 Agent 应该做什么),平台自动生成 schema、测试、工具路由、版本控制、可观测性。spec 本身大约 500 词,核心步骤非常简单:

  1. 仔细阅读 prompt,识别任务和所有约束条件
  2. 先起草回答,关注任务本身
  3. 逐条对照每个约束检查
  4. 不满足就改,直到全部通过
  5. 只返回最终回答,不要解释

对,就是你会给一个认真干活的人类下属说的那些话。问题在于,大多数人给模型写 prompt 的时候,不会写这么详细。

Harness 的角色

spec 是一半,另一半是 Logic 的 harness。它自动做输入验证、结构化输出约束、调用路由、契约执行。这些本来是每个 Agent 项目都要自己搭的基础设施,Logic 把它变成了平台能力。

用 Logic CEO Steve Krenzel 的话说:"两年前每个做 AI feature 的团队都在从零搭 LLM 基础设施,把这种工作正在变成商品,这其实是好事。"(

实操启示

如果你在做 Agent 开发,这个实验给了一个非常具体的行动建议:在考虑换模型之前,先花 30 分钟把你的 spec 写清楚。不是写得更长,是写得更结构化:任务是什么、约束有哪些、检查步骤是什么、输出格式长什么样。

Logic 已经有超过 250 家机构在使用,累计跑了 400 万次 Agent 调用,覆盖医疗、电商、金融安全等领域。平台支持 OpenAI、Anthropic、Google 三家模型路由,免费层可以直接上手。

我的看法

Logic 做的事情本质上是在验证一个假设:Agent 的质量瓶颈不在模型,在于模型外面的那层工程。spec 是 prompt engineering 的升级版,harness 是 context engineering 的产品化。当这两件事结合在一起,同一个模型就能跑出更好的结果。

这个方向和 Anthropic 的 Programmatic Tool Calling、OpenAI 的 Symphony 是同一条脉络:让工程结构承担更多控制责任,把模型解放出来做它擅长的事。区别是 Logic 更激进,它直接说:别写代码了,写 spec 就行。

相关文章

Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了
智能体工程
2026年6月18日
0 条评论
零重力瓦力

Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了

Vercel 发布开源智能体框架 eve,采用文件系统优先设计,将 Agent 定义为目录结构以降低理解成本。框架内置持久化会话、沙盒计算、人类审批、安全连接、多渠道部署及可观测性六大生产级能力,解决重复造轮子痛点。eve 目前处于公开预览阶段,框架免费但托管服务收费。该框架标志着 AI Agent 开发正从混乱走向标准化,大幅缩短从 demo 到上线的距离,但需注意 beta 阶段的 API 变动及供应商锁定风险。

#智能体框架#智能体工程
阅读全文
谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局
智能体工程
2026年6月13日
0 条评论
零重力瓦力

谷歌说 AI 不该假装确定:忠实不确定性如何终结幻觉困局

谷歌研究团队提出“忠实不确定性”框架,主张 AI 应诚实表达置信度而非盲目追求零错误,以解决大模型“自信错误”导致的幻觉问题。该研究指出传统降幻觉方法存在高昂“效用税”,建议将输出区分为自信错误与诚实猜测。这对 AI Agent 尤为关键,能优化元认知判断与工具调用效率。开发者可通过调整评估指标、提示词及路由策略落地应用,推动系统从可用迈向可靠。

#Google#智能体工程
阅读全文
LangChain 让 Agent 的技能不再只靠提示词:Interpreter Skills 把确定性写进代码
智能体工程
2026年6月6日
0 条评论
零重力瓦力

LangChain 让 Agent 的技能不再只靠提示词:Interpreter Skills 把确定性写进代码

LangChain 发布实验性功能 Interpreter Skills,专门用于解决 AI Agent 执行路径不确定的问题。该功能通过增加代码模块,将确定性逻辑从提示词转移至代码,使模型仅负责判断与委托。其核心优势包括执行确定性、解释器内状态持久化及精细化安全边界,有效缓解长流程中的“上下文焦虑”。这标志着 Agent 架构向“提示词定义意图、代码保障执行”的混合模式演进,提升了任务执行的稳定性与可靠性。

#智能体工程#LangChain
阅读全文
互动讨论

评论区

围绕《写规格说明,不写代码:Logic 如何用 500 字 spec 把模型指令遵循率拉高 6 个点》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。