
2026年,国产大模型竞争白热化。DeepSeek V4、Qwen 3.6、Kimi K2.5、GLM 5.1、MiniMax M2.7、小米 MiMo V2.5 六款模型各有千秋。本文聚焦一个关键维度:中文文案能力——即模型在中文创意写作、商业文案、品牌调性遵循等方面的表现。
一、模型基础规格对比
| 模型 | 总参数 | 激活参数 | 上下文窗口 | 架构 | 开源协议 | 多模态 |
|---|---|---|---|---|---|---|
| DeepSeek V4 Pro | 1.6T | 49B | 1M | MoE | MIT | 文本 |
| Qwen 3.6 Plus | 27B (dense) / 35B (MoE) | 27B / 3B | 256K-1M | Dense + MoE | Apache-2.0 | 视觉 |
| Kimi K2.5 | 1T | 32B | 256K | MoE | 开源 | 视觉 (MoonViT) |
| GLM 5.1 | 745B | 44B | 200K | MoE | 开源 | 文本(推理导向) |
| MiniMax M2.7 | 230B | 10B | 200K | MoE | 开源 | 文本 |
| 小米 MiMo V2.5 Pro | 1.02T | 42B | 1M | MoE (混合注意力+MTP) | MIT | 文本+图像+视频+音频 |
二、关键基准测试成绩
2.1 综合能力(BenchLM 复合评分,2026年4月)
| 排名 | 模型 | 评分 | 类型 |
|---|---|---|---|
| 1 | DeepSeek V4 Pro (Max) | 87 | 推理 |
| 2 | Kimi K2.6 | 84 | 非推理 |
| 3 | GLM-5(推理) | 83 | 推理 |
| 4 | GLM-5.1 | 83 | 非推理 |
| 5 | DeepSeek V4 Pro (High) | 83 | 推理 |
| 6 | Qwen3.5 397B | 79 | 推理 |
| 7 | Kimi K2.5(推理) | 77 | 推理 |
| 9 | Qwen3.6-27B | 75 | 非推理 |
| 10 | Qwen3.6 Plus | 74 | 非推理 |
注:MiniMax M2.7 和 MiMo V2.5 在综合排名中较靠后,MiMo-V2-Pro 智能指数约 49.2,MiniMax M2.7 Vals 约为 59.58%。
2.2 创意写作能力(EQ-Bench Creative Writing v3,2026年5月)
这是最直接衡量文案能力的基准:
| 模型 | 评分 | Elo | Slop ↓ | 重复率 ↓ |
|---|---|---|---|---|
| Kimi K2.6 | 83.35 | 1807.7 | 1.8 | 3.8 |
| DeepSeek V4 Pro | 82.25 | 1582.3 | 2.7 | 3.2 |
| DeepSeek V4 Flash | 81.45 | 1556.4 | 2.9 | 4.3 |
| GLM-5.1 | 81.30 | 1632.2 | 3.3 | 3.8 |
| GLM-5 | 80.45 | 1663.6 | 2.6 | 3.5 |
| Kimi K2.5 | 79.70 | 1594.0 | 2.5 | 4.6 |
| Qwen3.5 397B | 80.00 | 1466.6 | 3.4 | 5.2 |
| MiniMax M2.5 | 75.90 | 1330.9 | 3.7 | 3.9 |
参考系:GPT-5.5 评分 85.05/Elo 2024.3,Claude Opus 4.6 评分 82.65/Elo 1964.6。
三、中文文案能力深度分析
3.1 Kimi K2.5 / K2.6 — 中文创意写作之王
核心优势:
- 中文创意写作评分最高(K2.6: 83.35),接近全球顶级模型
- Slop 评分仅 1.8,在所有中文模型中最低——这意味着它产出的文字最少"AI味",最接近人写
- MoonViT 视觉编码器支持图文混合理解
- 原生中文 Chat 界面,对中国用户的语言习惯理解深刻
文案场景适用:社交媒体文案、品牌故事、创意广告语、产品描述
注意:K2.5 → K2.6 是显著跃升(评分从79.70到83.35),务必使用 K2.6 版本。本文对比中 K2.5 排名第5。
3.2 DeepSeek V4 — 长文与多样性冠军
核心优势:
- 重复率最低(3.2)——词汇最丰富,不会反复使用相同措辞
- 评分 82.25,仅次于 Kimi K2.6
- 1M 超长上下文,适合长篇文案生成
- MIT 开源,成本极低(Flash 版 $0.14/M input)
文案场景适用:长篇文章、SEO 内容、产品详情页、技术文档改写
注意:V4 Pro 比 Flash 写作质量更高但更贵;推理模式会降低创意表现。
3.3 GLM 5.1 — 指令遵循与格式之王
核心优势:
- IFEval 指令遵循评分 92(中文模型最高)——最适合需要严格格式约束的文案
- Elo 评分 1632.2,综合写作能力稳定
- 8小时自主执行循环,可独立完成多步骤文案任务
- 清华系团队,中文基准 C-Eval 表现优异
文案场景适用:品牌调性文案、格式化模板文案、合规文案、需要严格遵循模板的内容生成
注意:GLM-5(非推理版)Elo 1663.6 略高于 GLM-5.1 的 1632.2,但 5.1 评分稍高(81.30 vs 80.45)。
3.4 Qwen 3.6 — 均衡之选
核心优势:
- 阿里背景,中文语料极其丰富
- Dense 27B + MoE 35B 双版本,灵活选择
- Plus 版本支持 1M 上下文
- 多模态能力内置
文案场景适用:通用中文文案、多语言文案翻译、知识密集型内容
注意:Qwen3.6 在写作基准中评分偏低(27B版本75分,Plus版本74分),创意写作不是强项。但 397B 推理版评分 80 分。Qwen 更强在中文理解而非创意生成。
3.5 MiniMax M2.7 — 轻量高效
核心优势:
- 仅 10B 激活参数,推理成本极低
- 自进化架构,能自主完成30-50%的内部 RL 研究
- 上海团队,原生中文
文案场景适用:批量短文案生成、高并发场景、成本敏感型业务
注意:M2.5 在写作基准仅 75.90 分,M2.7 尚无写作基准数据。创意文案不是其强项,但在办公和生产力场景有优势。
3.6 小米 MiMo V2.5 — 多模态新秀
核心优势:
- 全模态能力(文本+图像+视频+音频)——唯一支持视频和音频输入的模型
- 1M 上下文窗口
- 48万亿 tokens 训练数据,中文语料充沛
- 混合注意力 + 三层多 Token 预测
文案场景适用:多模态文案(如视频脚本、图文配合)、小米生态适配
注意:MiMo V2.5 尚无创意写作基准数据。有抖音博主评测称 MiMo V2.5 Pro > GLM 5.1 > Kimi K2.6,但属于个例。在 Agent/Benchmark(ClawEval 61.5)表现不错,但文案专精度有待验证。
四、按场景推荐矩阵
| 场景 | 首选 | 备选 | 原因 |
|---|---|---|---|
| 社交媒体创意文案 | Kimi K2.6 | DeepSeek V4 Pro | 最低AI味,最接近人写 |
| 品牌调性文案 | GLM 5.1 | Kimi K2.6 | 指令遵循最强,严格遵循品牌规范 |
| SEO 长文内容 | DeepSeek V4 Pro | Qwen 3.6 Plus | 词汇多样性最好,重复率最低 |
| 批量短文案 | MiniMax M2.7 | DeepSeek V4 Flash | 成本极低,10B激活参数 |
| 多模态文案(视频脚本) | MiMo V2.5 | Kimi K2.5 | 唯一支持视频/音频理解 |
| 翻译+文案 | Qwen 3.6 Plus | GLM 5.1 | 多语言+中文理解最均衡 |
| 技术文案改写 | DeepSeek V4 Pro | GLM 5.1 | 推理+写作双强 |
| 性价比之王 | DeepSeek V4 Flash | MiniMax M2.7 | $0.14/M 输入,质量仍在线 |
五、关键结论
- 中文文案最佳模型:Kimi K2.6(注意不是 K2.5)——评分 83.35,Slop 仅 1.8,最接近人类写作风格。
- 如果只看本文对比的6个模型(含K2.5而非K2.6):DeepSeek V4 Pro 是中文文案最强选手(评分82.25,重复率最低3.2)。
- 指令遵循最强:GLM 5.1(IFEval 92),适合需要严格遵循模板的文案场景。
- 性价比最高:DeepSeek V4 Flash($0.14/M input,写作评分81.45)。
- 尚缺数据:MiniMax M2.7 和 MiMo V2.5 创意写作基准数据缺失,建议等待后续评测。
- 重要提醒:Kimi 已有 K2.6 版本,文案能力大幅超越 K2.5,阿里百炼 API 模型名为
kimi-k2.6,建议优先使用。
六、API 调用信息(阿里百炼)
| 模型 | 百炼 API 模型名 | 备注 |
|---|---|---|
| DeepSeek V4 Pro | deepseek-v4-pro | 推理/非推理均可用 |
| DeepSeek V4 Flash | deepseek-v4-flash | 低成本高速版 |
| Kimi K2.6 | kimi-k2.6 | 强烈推荐 |
| Kimi K2.5 | kimi-k2.5 | 已被K2.6超越 |
| GLM 5.1 | glm-5.1 | 指令遵循最优 |
| Qwen 3.6 Plus | qwen3.6-plus | 阿里自研 |
| Qwen 3.6 Flash | qwen3.6-flash | 低成本版 |
| MiniMax M2.7 | MiniMax-M2.7 | 10B激活参数 |
注:MiMo V2.5 目前不在百炼平台,需使用小米自有 API。
数据来源
- BenchLM.ai 综合基准(2026年4月)
- EQ-Bench Creative Writing v3(2026年5月)
- Artificial Analysis LLM Stats
- ReLE/CLiB 中文 LLM 基准项目
- 各模型官方技术报告
本文数据截止 2026年5月13日,模型更新频繁,建议定期复查。
