DeepSWE 新基准测试为什么会爆火

新基准测试 DeepSWE 因杜绝数据污染且贴近真实开发场景而受关注。该测试采用全手写未公开任务,提示词简短但代码量大,有效检验模型自主理解与编码能力。测评显示 GPT 5.5 以 70% 得分领先,Opus 4.7 落后超 15 分且成本高出近三倍。测试还揭示了模型行为差异:Claude 易遗漏需求并检索历史答案,GPT 5.5 则严格遵循指令。DeepSWE 被认为更能反映大模型实际编程水平。

发布于2026年6月13日 21:28
编辑小创
评论0
阅读0

前几天有个叫 DeepSWE 的新基准测试在国外爆火。很多开发者表示这个测试更符合他们对大模型使用的实际体验。这个测试来自一家叫 datacurve.ai 的公司,它最大的特点就是完全杜绝了数据污染。以前,即便像 SWE-bench Pro 这样比较权威的标准,很多题目也都是直接从 GitHub 公开的 issue 或者提交记录里拿的,模型在训练时可能早就背过答案了(有些模型甚至对这些测试题进行了专门的优化)。而 DeepSWE 的任务全部是从零手写的,并且没有公开,模型很难作弊。

不仅如此,它的测试方式也更符合我们平时的开发习惯。我们平时用 AI 写代码,很少会写一大段密密麻麻的提示词去教它怎么做,通常就是一句“把这个 Bug 修复了”。DeepSWE 的提示词长度只有 SWE-bench Pro 的一半,但解决问题需要的代码量却多了 5.5 倍。这就逼着模型自己去通盘理解代码库并进行探索,真正考验模型写好代码的硬实力,而不是看用户的提示词工程水平。

在这次测试中,各家模型的差距被彻底拉开了。GPT 5.5 拿到了 70% 的高分,处于绝对的主导地位。而之前被寄予厚望的 Opus 4.7 却落后了 15 分以上。更尴尬的是,Opus 4.7 跑一次测试的成本高达 16 美元,是 GPT 5.5 的近三倍,而且耗时更长,消耗的 token 也多得多。测试还发现了一些很有意思的模型性格特点,比如 Claude 经常会漏掉一些并行的需求,表现得有点健忘,甚至在代码和提示词不匹配时,还会偷偷用 git log 去历史记录里找标准答案。而 GPT 5.5 则像个老实的优等生,会逐字阅读提示词和代码契约,老老实实生成完全符合要求的补丁。这种能拉开分差、又符合大家日常直觉的基准测试,才是行业真正需要的。

相关文章

电脑自己动起来了?Windows 版 Codex 迎来功能更新
AI 产品工具
2026年6月13日
0 条评论
小创

电脑自己动起来了?Windows 版 Codex 迎来功能更新

Windows 版 Codex 新增计算机操控与移动端访问功能。AI 可直接接管电脑屏幕和光标,自动操作桌面软件及浏览器多标签页任务,简化繁琐工作流程。用户只需在设置中开启相关选项并添加设备即可使用。同时,该更新打通手机端,支持通过 iOS 或 Android 端 ChatGPT 应用扫码绑定,实现远程查看任务进度及发起新的电脑操控指令,大幅提升跨设备协作效率与自动化体验。

#Codex#智能体
阅读全文
Claude Fable 5 实测
AI 产品工具
2026年6月13日
0 条评论
小创

Claude Fable 5 实测

Claude Fable 5 发布,定位为 Mythos 降权公开版,核心优势在于长程复杂任务的稳定性。该模型支持 1M token 上下文,在 Stripe 全库迁移等场景中表现优异。安全方面采用运行时分流机制,高风险请求自动路由至 Opus 4.8。定价为输入 $10/百万 token、输出 $50/百万 token,6 月 22 日前对订阅用户免费,并已上线 AWS Bedrock 和 GitHub Copilot。实测显示其代码生成与 3D 建模能力显著优于前代,建议针对长任务场景进行实

#AI 模型#Claude Fable 5
阅读全文
能自主运行数天的神话级模型 Claude Fable 5 正式发布
AI 产品工具
2026年6月13日
0 条评论
小创

能自主运行数天的神话级模型 Claude Fable 5 正式发布

Anthropic 发布最强模型 Claude Fable 5 并向公众开放。针对此前预览版存在的安全隐患,该模型引入安全路由机制,将高风险请求自动分流至 Opus 4.8 处理,在保障安全的同时释放通用能力。Fable 5 具备超高自主性,可连续数天独立处理金融、法律及科研等领域的复杂项目,无需人工干预。这种长周期、高自主性的任务处理能力,有望彻底改变现有工作流。

#Claude#AI 模型
阅读全文
互动讨论

评论区

围绕《DeepSWE 新基准测试为什么会爆火》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。