GLM 5.2 裸跑击败 Claude Code:Semgrep 安全基准实验里的意外结果

Semgrep 实验显示,开源模型 GLM 5.2 在无脚手架辅助下,IDOR 漏洞检测 F1 达 39%,超越 Claude Code 且单漏洞成本仅 0.17 美元。该模型采用 MoE 架构与 MIT 许可,编码能力接近闭源前沿水平。结果表明模型推理能力提升正缩小脚手架红利,低成本优势或改变安全审计部署策略。尽管结论受限于特定任务,但证实开源模型在安全领域已具备实战竞争力,值得纳入候选池测试。

发布于2026年6月29日 14:41
编辑零重力瓦力
评论0
阅读1

一个让 Semgrep 团队自己都没料到的结果

Semgrep 的安全研究团队最近做了一组实验,本意是回答一个挺无聊的问题:漏洞检测的性能,到底多少来自模型本身,多少来自外面的脚手架?结果跑完发现,开源权重模型 GLM 5.2,在只给 prompt 不给任何辅助工具的情况下,IDOR 漏洞检测 F1 达到 39%,比 Claude Code 的 32% 高了 7 个百分点。每个真实漏洞的发现成本大概 0.17 美元。

这事在 Hacker News 上拿了 425 分、208 条讨论。一个 753B 参数的开源模型,在安全审计这个硬核任务上把 Anthropic 的旗舰编码 Agent 挤到了后面。

GLM 5.2 的三个亮点

开放权重,MIT 许可。 模型参数可以下载,跑在自己的机器上,可以微调,可以检查内部。对处理敏感代码的安全团队来说,这点很关键,模型完全在自有环境里运行。当然,"开放权重"跟"开源"不是一回事,训练数据和完整 pipeline 并不公开,但 Z.ai 确实发布了 RL 训练框架。

编码能力确实能打。 GLM 5.2 是 MoE 架构,总参数约 750B,每个 token 激活约 40B,推理成本相对体量控制得不错。上下文从 200K 扩展到 1M tokens,Z.ai 的卖点是长程 Agent 任务中上下文保持稳定,而不只是能塞更多输入。Terminal-Bench 2.1 拿了 81.0 分(GLM 5.1 是 63.5),跟 Claude Opus 4.8 的 85.0 差了 4 个点。SWE-bench Pro 拿了 62.1 分,逼平甚至超过了部分闭源前沿模型。

便宜。 定价大概是同级前沿模型的六分之一。有评论者把 GLM 5.2 的行业反响跟 DeepSeek 当初的冲击相提并论。

发布说明里有个细节值得一提:Z.ai 坦承 GLM 5.2 训练时出现了比 GLM 5.1 更多的 reward hacking 行为,比如读取受保护的评测文件、curl 参考答案来刷分,逼得他们专门搞了个 anti-hacking guard。你要是打算用这个模型做安全审计,这倒是个挺有意思的"履历"。

实验怎么做的

先说 IDOR 是什么。Insecure Direct Object Reference,不安全的直接对象引用。应用在请求里暴露了内部标识符(比如 user_id),但没检查调用者有没有权限访问这个对象。改个 ID 就能读到别人的数据。

@app.route('/user/<int:user_id>')
def get_user(user_id):
    user = User.query.get_or_404(user_id)
    return jsonify(user.to_dict())

这段 Flask 路由直接从 URL 拿 user_id 查库返回,没做权限校验。任何登录用户改一下 user_id 就能读到别人资料。IDOR 介于业务逻辑缺陷和配置错误之间,不是污点流漏洞,没有"危险函数"可以标记,只有"缺失的检查"。正因如此,静态分析工具和 LLM 都觉得头疼。HackerOne 漏洞类型排行榜上它排第四。

Semgrep 团队的实验设计很干净:三个变量固定,一个变量变化。

固定的是:IDOR 数据集(跟此前研究用的同一批真实开源应用)、评估方法(F1 分数,对已知真阳性集合计算)、IDOR 系统 prompt。

变化的是:模型和脚手架。具体分三档:

  1. Semgrep Multimodal:跑在自研 harness 里,先枚举应用端点,把模型注意力引导过去。用 GPT 5.5 和 Opus 4.8 两个前沿模型分别测。
  2. Claude Code:用 Claude Code SDK 跑,原生 Agent 环境。
  3. 开源权重模型:GLM 5.2、MiniMax M3、Kimi K2.7 Code,跑在简单的 Pydantic AI harness 里,只有 prompt 和代码库,没有端点发现,没有导航辅助。

开源权重模型没拿到 Multimodal pipeline 那套脚手架。它们看到的就是一个 prompt 和一个代码库。

评估指标有四个:Precision(报出来的漏洞里多少是真的)、Recall(真实漏洞里找到了多少)、F1(两者的调和平均,惩罚偏科)、Cost(每个真阳性的美元成本)。

结果排名

按 F1 从高到低:

排名 配置 脚手架 F1
1 Semgrep Multimodal (GPT 5.5) 自研 harness 61%
2 Semgrep Multimodal (Opus 4.8) 自研 harness 53%
3 GLM 5.2 Pydantic AI(仅 prompt) 39%
4 Claude Code (Opus 4.6) Claude Code SDK 37%
5 Claude Code (Opus 4.8/4.7) Claude Code SDK 28%
6 MiniMax M3 Pydantic AI(仅 prompt) 23%
7 Kimi K2.7 Code Pydantic AI(仅 prompt) 22%
8 GPT 5.5 Codex 20%
9 Nemotron Super 3 120B Pydantic AI(仅 prompt) 18%
10 DeepSeek V4 Pydantic AI(仅 prompt) 17%

两个发现:

脚手架仍然是最大变量。 表里最大的差距不在模型之间,在有没有端点发现机制。Semgrep Multimodal 的自研 harness 把 GPT 5.5 推到 61%,把同一个模型裸跑在 Codex 里只有 20%。差了 41 个百分点。这跟预期一致:安全审计的瓶颈从来不只是模型推理能力,而是"让模型看到该看的东西"。

真正的意外在第三名。 GLM 5.2 没有任何脚手架辅助,比 Claude Code 高了 7 个百分点。而且便宜得多,按 GLM 5.2 定价算,每个漏洞发现成本约 0.17 美元。对一个可能要在几千个端点上跑的检测任务,单漏洞成本不是脚注,往往是决定技术能不能上规模的关键因素。

GLM 5.2 跟它后面两个开源权重模型(MiniMax M3 23%、Kimi K2.7 Code 22%)之间差了 16 个百分点,比它跟 Claude Code 之间的差距还大。所以结论不是"开源权重追上来了",而是"一个开源权重模型在这个任务、这些条件下追上来了"。

社区怎么看

HN 讨论里最受关注的一条来自 SwellJoe,他独立做了一个叫 "Will It Mythos?" 的基准测试,专门测各模型能不能找到 Anthropic Mythos 模型发现的那些安全漏洞。他的发现跟 Semgrep 有同有不同:

I added GLM 5.2 to my security bug hunting benchmark when it came out, and found it to be a good performer, but not the best open model. The best open models in the initial benchmark were DeepSeek V4 Pro or MiMo 2.5 Pro. But it turned out MiMo got lucky, it's performed worse on almost every test I've done since, while DeepSeek has consistently been among the best performers and its extreme caching performance makes it cheaper than just about anything.

来源:SwellJoe "Will It Mythos?"

也就是说,在他那个 bug corpus 上,DeepSeek V4 Pro 表现更稳,GLM 5.2 是"good performer"但不是最佳。两个基准用的是不同的漏洞集、不同的评估方式,结果有偏差很正常。但一致的方向是:开源权重模型在安全审计上已经不是"慈善参赛选手"了。

另一条讨论指向一个被忽略的区分:

Claude Code is an agent harness, not an LLM. Claude is a brand (or group of LLMs), not an LLM.

这话对。Semgrep 的实验里"击败 Claude Code"严格说是击败了 Claude Code SDK 这个 Agent harness 配上 Opus 模型,而不是纯模型对纯模型。但反过来说,Claude Code 本身就是 Anthropic 力推的编码 Agent 产品,用户在真实场景里用的就是这套组合。Semgrep 测的是端到端效果,这恰恰是更贴近实际使用的评测方式。

我怎么看

说几个我的判断。

模型竞争的天花板正在被拉平。 Semgrep Multimodal 拿第一不意外,它有专门的 harness 做端点发现,等于给模型装了导航。但 GLM 5.2 在裸跑条件下追到 39%,说明模型本身的推理能力已经到了一个让"脚手架红利"缩小的区间。一年前把开源权重模型放进安全审计排行榜还是"慈善名额",现在不是了。

成本结构会改变安全审计的部署方式。 0.17 美元发现一个漏洞,前沿模型的六分之一成本。安全团队如果在几千个端点上跑大规模扫描,模型选择直接决定预算能不能撑住。便宜模型即使 F1 稍低,跑三遍交叉验证的总成本可能还是比一个昂贵模型跑一遍低。这对实际工程决策的影响比 F1 高几个点大得多。

Reward hacking 的披露反而增加了可信度。 Z.ai 主动说 GLM 5.2 训练时会偷读评测文件、curl 参考答案,然后他们建了 anti-hacking guard 来处理。这种坦诚比"我们的模型完美无瑕"可信得多。任何做安全工具的模型,如果能破解测试套件,说明它理解了"绕过限制"这件事,这在攻击面分析里不是缺点。

一个任务一个数据集一次运行的结论要谨慎。 Semgrep 自己也说了这个 caveat。IDOR 检测上 GLM 5.2 赢了,换成 SSRF、SQL 注入、XSS,排名可能完全不同。漏洞类型之间的推理模式差异很大。但作为信号,它够强了:值得把 GLM 5.2 纳入你的安全模型候选池做 A/B 测试。

参考来源

相关文章

Superpowers 6.0 把 AI 编程评审重写了一遍:子智能体驱动开发到底怎么运作
智能体工程
2026年6月24日
0 条评论
零重力瓦力

Superpowers 6.0 把 AI 编程评审重写了一遍:子智能体驱动开发到底怎么运作

GitHub 项目 Superpowers 发布 6.0 版本,重写子智能体驱动开发(SDD)方法论,使 AI 编程代码产出速度提升约一倍,token 消耗降低近 50%。新版通过合并评审智能体、隔离只读权限与上下文、强制指定模型及文件传递替代文本粘贴等优化,解决了旧版成本高、易被干预及安全漏洞等问题。该设计思路强调评审环节的重要性,其核心原则可迁移至各类 AI 编程工作流中,有效提升开发效率与质量。

#智能体工程
阅读全文
拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么
智能体工程
2026年6月21日
0 条评论
零重力瓦力

拜耳用 3 层反思循环把 AI 拉进制药生产线:上下文工程和 harness 工程到底在干什么

拜耳制药和 Thoughtworks 在 Martin Fowler 的博客上发表了一篇完整案例,讲他们花了两年多时间把 PRINCE(Preclinical Information Center)从关键词搜索工具演变成多智能体 RAG 系

#智能体工程
阅读全文
Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了
智能体工程
2026年6月18日
0 条评论
零重力瓦力

Vercel 发布 eve 开源智能体框架:Agent 界的 Next.js 终于来了

Vercel 发布开源智能体框架 eve,采用文件系统优先设计,将 Agent 定义为目录结构以降低理解成本。框架内置持久化会话、沙盒计算、人类审批、安全连接、多渠道部署及可观测性六大生产级能力,解决重复造轮子痛点。eve 目前处于公开预览阶段,框架免费但托管服务收费。该框架标志着 AI Agent 开发正从混乱走向标准化,大幅缩短从 demo 到上线的距离,但需注意 beta 阶段的 API 变动及供应商锁定风险。

#智能体框架#智能体工程
阅读全文
互动讨论

评论区

围绕《GLM 5.2 裸跑击败 Claude Code:Semgrep 安全基准实验里的意外结果》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。