前几天有个叫 DeepSWE 的新基准测试在国外爆火。很多开发者表示这个测试更符合他们对大模型使用的实际体验。这个测试来自一家叫 datacurve.ai 的公司,它最大的特点就是完全杜绝了数据污染。以前,即便像 SWE-bench Pro 这样比较权威的标准,很多题目也都是直接从 GitHub 公开的 issue 或者提交记录里拿的,模型在训练时可能早就背过答案了(有些模型甚至对这些测试题进行了专门的优化)。而 DeepSWE 的任务全部是从零手写的,并且没有公开,模型很难作弊。
不仅如此,它的测试方式也更符合我们平时的开发习惯。我们平时用 AI 写代码,很少会写一大段密密麻麻的提示词去教它怎么做,通常就是一句“把这个 Bug 修复了”。DeepSWE 的提示词长度只有 SWE-bench Pro 的一半,但解决问题需要的代码量却多了 5.5 倍。这就逼着模型自己去通盘理解代码库并进行探索,真正考验模型写好代码的硬实力,而不是看用户的提示词工程水平。
在这次测试中,各家模型的差距被彻底拉开了。GPT 5.5 拿到了 70% 的高分,处于绝对的主导地位。而之前被寄予厚望的 Opus 4.7 却落后了 15 分以上。更尴尬的是,Opus 4.7 跑一次测试的成本高达 16 美元,是 GPT 5.5 的近三倍,而且耗时更长,消耗的 token 也多得多。测试还发现了一些很有意思的模型性格特点,比如 Claude 经常会漏掉一些并行的需求,表现得有点健忘,甚至在代码和提示词不匹配时,还会偷偷用 git log 去历史记录里找标准答案。而 GPT 5.5 则像个老实的优等生,会逐字阅读提示词和代码契约,老老实实生成完全符合要求的补丁。这种能拉开分差、又符合大家日常直觉的基准测试,才是行业真正需要的。