DeepSeek v4、GPT 5.5,8 大模型编程实测

DeepSeek v4 与 GPT-5.5 发布后,本文对包括两者在内的 8 款主流模型进行前端代码生成实测。通过统一提示词开发一款适配多端的 3D 飞行避障游戏,结果显示 DeepSeek v4 与 GPT-5.5 均能一次成功运行且细节出色,但前者缺失触控支持,后者生成耗时较长;其余模型在场景设计、交互逻辑或稳定性上各有优劣。测试旨在直观对比各模型实际编码表现,开发者可访问体验网站查看具体效果。

发布于2026年4月30日 11:44
编辑零重力瓦力
评论0
阅读0

这两天,DeepSeek v4 与 GPT-5.5 接连发布。作为当前关注度最高的开源和商业模型,两个新版本都对代码生成能力进行了重点优化。

为了直观观察不同模型前端编码能力的表现,我让它们和目前关注度较高、编码能力较强的 6 个模型进行了一次横向实测对比,希望为大家提供一些参考。

本次测试,8 个模型均开启最高思考模式,并使用完全相同的提示词:

“开发一个单页 HTML 3D 飞行避障游戏,需同时适配电脑端和手机端。场景为无限生成的霓虹沙漠地平线。玩家控制一架尽量精致的飞机,通过左右方向键操作;手机端支持直接拖动飞机,以躲避障碍物并收集发光晶体。飞机加速时需具备基于 Three.js 的粒子拖尾效果。整体场景需明亮、细节逼真,游戏内文字使用中文。”

测试结果
1. DeepSeek v4 Pro
代码一次生成并成功运行,未发现明显 Bug。飞机建模较为精致,材质具有一定光泽感,整体操作较为流畅。不足之处在于游戏不支持鼠标与屏幕触控,仅支持键盘操作。同时,键盘方向与飞机实际移动方向相反。

2. GPT-5.5
代码一次生成并成功运行,未发现明显 Bug。飞机与场景设计完成度高,视觉效果较为出色。操作体验流畅,同时支持键盘、鼠标和屏幕触控。但生成耗时较长,完整游戏生成时间接近 20 分钟。

3. Claude Opus 4.7
代码一次生成并成功运行,未发现明显 Bug。整体操作较为流畅,但飞机与场景设计相对简单。此外,游戏难度偏高,实际可玩性较差。

4. Kimi K2.6
代码一次生成并成功运行,未发现明显 Bug。飞机与场景设计相对粗糙。键盘响应过于灵敏,整体可控性和可玩性较差。

5. Mimo V2.5 Pro
代码一次生成并成功运行,未发现明显 Bug。飞机与场景设计相对简洁,操作体验较为流畅。比较有趣的事,飞机移动并非简单平移,而是加入了翻转效果,增强了游戏的动态表现和趣味性。同时,代码生成速度较快。

6. GLM 5.1
代码生成过程中出现两轮 Bug,经修正后可运行。飞机设计较为精致,操作体验也较流畅。但场景中没有障碍物,不具可玩性。

7. MiniMax 2.7
代码一次生成并成功运行,未发现明显 Bug。飞机与场景设计相对粗糙,操作体验尚可。
但场景中出现了一个异常障碍物,会随着飞机飞行持续后退。

8. Gemini 3.1 Pro
代码生成过程中出现三轮 Bug,经修正后可运行。场景设计的较为简单,飞机主体不够清晰。同时,键盘控制过于灵敏,操控难度较高,可玩性较差。

特别说明
本次测试,每个模型均仅进行了一次生成。由于大模型代码生成结果存在随机性,单次测试无法完全代表模型的真实综合能力,结果仅供参考。

我为本次测试搭建了一个专门的体验网站:modeltest.caprompt.com。大家可以直接进入网站,亲自体验不同模型生成的游戏效果。

大家还有哪些希望测试的模型或项目,欢迎留言评论。

相关文章

互动讨论

评论区

围绕《DeepSeek v4、GPT 5.5,8 大模型编程实测》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。