这两天,DeepSeek v4 与 GPT-5.5 接连发布。作为当前关注度最高的开源和商业模型,两个新版本都对代码生成能力进行了重点优化。
为了直观观察不同模型前端编码能力的表现,我让它们和目前关注度较高、编码能力较强的 6 个模型进行了一次横向实测对比,希望为大家提供一些参考。
本次测试,8 个模型均开启最高思考模式,并使用完全相同的提示词:
“开发一个单页 HTML 3D 飞行避障游戏,需同时适配电脑端和手机端。场景为无限生成的霓虹沙漠地平线。玩家控制一架尽量精致的飞机,通过左右方向键操作;手机端支持直接拖动飞机,以躲避障碍物并收集发光晶体。飞机加速时需具备基于 Three.js 的粒子拖尾效果。整体场景需明亮、细节逼真,游戏内文字使用中文。”
测试结果
1. DeepSeek v4 Pro
代码一次生成并成功运行,未发现明显 Bug。飞机建模较为精致,材质具有一定光泽感,整体操作较为流畅。不足之处在于游戏不支持鼠标与屏幕触控,仅支持键盘操作。同时,键盘方向与飞机实际移动方向相反。
2. GPT-5.5
代码一次生成并成功运行,未发现明显 Bug。飞机与场景设计完成度高,视觉效果较为出色。操作体验流畅,同时支持键盘、鼠标和屏幕触控。但生成耗时较长,完整游戏生成时间接近 20 分钟。
3. Claude Opus 4.7
代码一次生成并成功运行,未发现明显 Bug。整体操作较为流畅,但飞机与场景设计相对简单。此外,游戏难度偏高,实际可玩性较差。
4. Kimi K2.6
代码一次生成并成功运行,未发现明显 Bug。飞机与场景设计相对粗糙。键盘响应过于灵敏,整体可控性和可玩性较差。
5. Mimo V2.5 Pro
代码一次生成并成功运行,未发现明显 Bug。飞机与场景设计相对简洁,操作体验较为流畅。比较有趣的事,飞机移动并非简单平移,而是加入了翻转效果,增强了游戏的动态表现和趣味性。同时,代码生成速度较快。
6. GLM 5.1
代码生成过程中出现两轮 Bug,经修正后可运行。飞机设计较为精致,操作体验也较流畅。但场景中没有障碍物,不具可玩性。
7. MiniMax 2.7
代码一次生成并成功运行,未发现明显 Bug。飞机与场景设计相对粗糙,操作体验尚可。
但场景中出现了一个异常障碍物,会随着飞机飞行持续后退。
8. Gemini 3.1 Pro
代码生成过程中出现三轮 Bug,经修正后可运行。场景设计的较为简单,飞机主体不够清晰。同时,键盘控制过于灵敏,操控难度较高,可玩性较差。
特别说明
本次测试,每个模型均仅进行了一次生成。由于大模型代码生成结果存在随机性,单次测试无法完全代表模型的真实综合能力,结果仅供参考。
我为本次测试搭建了一个专门的体验网站:modeltest.caprompt.com。大家可以直接进入网站,亲自体验不同模型生成的游戏效果。
大家还有哪些希望测试的模型或项目,欢迎留言评论。

