SCOPE 给 AI 绘画装上了 “语义追踪器”，复杂提示词终于不用反复抽卡了

你有没有碰到过这种情况：让 AI 画一张“爱因斯坦在咖啡馆里对着白板写 E=mc²，旁边一只橘猫趴在桌上”，结果爱因斯坦画对了，白板上的公式是乱码，橘猫变成了一只黑猫，咖啡馆变成了一间实验室。每个部分单独看都还行，放在一起就是四不像。

问题出在哪？不是模型不够强，是模型记不住你的要求。你提了 5 个条件，它生成的时候丢了 3 个，验证的时候又不知道该查哪个，修的时候更是乱修一通。这个断链，中科大的 SCOPE 团队起了个名字叫 Conceptual Rift，概念裂缝。

5 月 8 日，中科大团队在 arXiv 上发布了 SCOPE 论文，同时开源了代码和 Gen-Arena 评测基准。核心思路一句话概括：给 AI 绘画装一套语义追踪系统，让你的每一条要求从“写进提示词”到“画进画面”再到“验证是否画对”，全程可追溯、可修复。

为什么现有的多步生成方案还是不够用

过去半年，AI 绘画的 Agent 方案已经有不少了。大致做法是：先检索参考图，再规划，再生成，再反思修改。听起来很完整，但有个结构性缺陷：每一步的中间产物是各自独立的，上一步的“检索结果”到了“生成”那步可能已经被稀释了，验证发现“猫画错了”，但修复的时候不知道是“猫的品种错了”还是“猫的位置错了”还是“猫该趴在桌上但画在了地上”。

SCOPE 把这个过程重新组织了一下。它引入了一个“结构化语义规格”，记作 z = (E, C, U)，三个字母分别代表：

E，实体列表：画面中必须出现的所有角色、物品、文字。 C，约束列表：每个实体必须满足的条件，分三类，属性约束（外观、数量、文字内容）、关系约束（谁和谁怎么互动）、布局约束（谁在哪、怎么摆）。 U，未知项列表：当前还不确定的信息，比如“爱因斯坦 1905 年长什么样”，每个未知项必须挂在一个具体的实体或约束下面，不能悬空。

关键在于，这个规格是“活的”。检索技能填充了未知项，结果直接写回规格里对应的 U 条目。验证技能发现某个约束被违反，结果也写回规格。修复技能只针对被标记为违反的约束行动，不会牵一发动全身。

四步核心循环加三类技能

SCOPE 的核心管线是一个固定循环：Decomposer → Synthesizer → Generator → Verifier。

第一步 Decomposer，把自然语言提示词拆成结构化规格。不只是简单抽取关键词，而是把隐含的语义也挖出来。比如“爱因斯坦在咖啡馆写公式”，你需要知道 1905 年爱因斯坦的外貌特征、白板上 E=mc² 的正确写法、咖啡馆的典型场景元素。这些隐含要求被标记为 U 未知项。

第二步 Synthesizer，把当前规格里所有已确定的信息综合成一个连贯的生成提示词。注意，这里是“已确定”的，还没解决的未知项不会被硬塞进去，而是留待技能调用解决后再填入。

第三步 Generator，调用底层图像模型（FLUX、GPT Image 等都行）生成图像。

第四步 Verifier，逐条检查规格中的实体和约束，标记哪些通过、哪些违反。

在固定循环之外，SCOPE 有三类条件触发的技能：

检索技能：当规格中有 U 未知项时触发。比如需要查爱因斯坦的真实照片，就用 RAG 检索参考图，结果写回对应实体的属性约束。

推理技能：当约束之间存在逻辑依赖但信息不完整时触发。比如“爱因斯坦 1905 年 26 岁”这个事实会影响他的外貌描写，推理技能把这条隐性信息推出来。

修复技能：当 Verifier 报告某条约束被违反时触发。修复只针对被违反的那条约束行动，不会把整张图重新生成。

对比一下现有方案：大多数 Agent 式图像生成是 pipeline 模式，检索、生成、验证、修复各自为政，中间信息靠自然语言传递，容易失真。SCOPE 的结构化规格就像一个共享的态数据库，每个技能的输入输出都写回同一个规格，所有环节看到的是同一张“待办清单”。

Gen-Arena：第一个面向“语义承诺”的评测基准

现有图像生成评测主要看整体对齐分数，比如 CLIP Score、人类偏好排名。但整体分数高不代表细节都对。SCOPE 团队为此构建了 Gen-Arena 基准。

Gen-Arena 的每个样本包含：自然语言提示词、可选参考图、命名实体列表、逐条约束列表。关键是约束之间有前置依赖关系：如果“爱因斯坦”这个实体本身没画出来，那“爱因斯坦在写公式”这条约束就没法评估，会被标记为“前置未满足”而非简单的“不通过”。

对应地，SCOPE 提出 EGIP（Entity-Gated Intent Pass Rate）指标：先检查实体是否存在，实体不存在则该实体的所有约束自动判为失败，不重复计分。这比笼统的“对齐度”严格得多。

实验结果：SCOPE 在 Gen-Arena 上达到 0.60 EGIP，显著超过所有对比基线。在 WISE-V 基准上达到 0.907，在 MindBench 上达到 0.61。

这对你意味着什么

如果你是 AI 绘画的重度用户，尤其是做故事板、产品摄影、品牌视觉这类需要画面一致性和多元素控制的场景，SCOPE 的思路有三个直接可借鉴的点：

第一，把提示词拆成实体加约束的结构化列表再喂给模型，比一整段自然语言描述靠谱得多。你甚至可以手动做这个拆解：先列实体，再列每个实体必须满足的条件，最后列实体之间的关系。这个习惯本身就能把生成成功率拉高一个档次。

第二，每次生成后不要只看整体感觉，而是逐条检查你列出的约束是否满足。发现哪条没过，只针对那条修改提示词重新生成，不要全盘推翻。

第三，对于需要参考图的复杂场景（比如特定人物、特定品牌 logo），先单独检索参考图，把参考图和提示词一起给模型，比只靠文字描述准确率高很多。Nano Banana 2 已经支持最多 14 张参考图同时输入，GPT Image 2 也支持多参考图组合，底层模型的能力已经就位，缺的是你组织信息的方式。

从更宏观的视角看，SCOPE 做的事情和上下文工程在文本生成领域做的事完全同构：不是让模型更强，而是让模型收到的上下文更结构化、更可追溯、更可修复。AI 绘画的下一个台阶，大概率不是模型参数再翻几倍，而是像 SCOPE 这样，把提示词到画面之间的语义传递管线工程化。

为什么现有的多步生成方案还是不够用

四步核心循环加三类技能

在固定循环之外，SCOPE 有三类条件触发的技能：

Gen-Arena：第一个面向“语义承诺”的评测基准

这对你意味着什么

相关文章

Google 为何要开发 Gemma 4 模型

微软 Mirage：让世界模型学会“过目不忘”，速度快 10 倍、显存省 55 倍

Google 搜索变身全天候智能体：Information Agents 上线，你的数据终于开始替你干活了

评论区