17 天 4 款模型：中国开源 AI 的"军备竞赛"与性能格局重排

情报摘要

2026 年 4 月下旬到 5 月初，中国 AI 行业在 17 天内密集发布了四款开源/开放权重旗舰模型：

GLM-5.1（智谱）：754B MoE，MIT 开源协议
Kimi K2.6（月之暗面）：1T MoE，开放权重
DeepSeek V4（深度求索）：万亿级 MoE，开源
MiMo V2.5 Pro（小米）：多模态开源模型

社区实测结论简洁而有力：Kimi K2.6 是最快的，GLM-5.1 是最”炫”的，DeepSeek V4 是最全面的，小米 MiMo 是最慢的。

但这句简单的评价背后，是中国开源 AI 从”追赶叙事”到”差异化竞争”的深刻转变。

四款模型的能力画像

GLM-5.1：最”炫”的全能选手

GLM-5.1 的关键词是功能完备性。754B MoE 架构赋予了它在各维度都不短板的能力：

编码能力：在代码竞技场中排名国产第一，超越 Kimi K2.6 和 DeepSeek V4 Pro
Agent 工具调用：专为长时间自主执行和复杂工程任务优化
华为昇腾训练：完全在非 NVIDIA 芯片上训练，零英伟达依赖

“最炫”的实质是：GLM-5.1 在功能广度上最接近闭源旗舰模型。它不是某个单项的冠军，但是最接近”全能”的开源选项。

Kimi K2.6：速度之王

Kimi K2.6 的杀手锏是推理速度。1T 参数的 MoE 架构中，每个 token 仅激活约 320 亿参数，这意味着：

免费可用：在 Fireworks AI 等平台上提供免费的推理服务
编码+数学双强：LiveCodeBench v6 得分 53.7%，超越 Claude Sonnet 4
256K 上下文窗口：支持图像和视频输入

社区共识是：如果你需要快速迭代和低成本原型开发，Kimi K2.6 是目前最好的选择。它的”快”不只是推理速度快，更是从想法到代码的迭代速度。

DeepSeek V4：全面但垫底？

DeepSeek V4 在 Arena 编码榜单中排名国产第四，这个结果引发了一些讨论。但需要正确理解”垫底”的含义：

对比基准是国产旗舰：第四名仍然是世界级水平
SWE-bench 80.6%：与 Claude Opus 4.6（80.8%）仅差 0.2 个百分点
成本优势：API 价格远低于同等性能的闭源模型

DeepSeek V4 的”全面”体现在：它在编码、推理、数学、多模态等多个维度都保持了一流水准，没有一个明显短板。但在这个级别的竞争中，“没有短板”不等于”有长板”。

MiMo V2.5 Pro：慢但有惊喜

小米 MiMo V2.5 Pro 是四款中推理速度最慢的，但它有一个独特的定位：消费级 GPU 可运行。

多模态原生：从设计之初就是多模态模型，不是后期拼接
小米生态整合：与小米手机、汽车、IoT 设备的深度集成
GDPVal 评估领先：在特定评测维度上表现突出

“慢”对于小米来说可能不是问题——小米的商业模式决定了它更关注终端用户体验而非极致推理速度。

格局重排：从”谁更强”到”谁更适合”

这四款模型的同时存在，标志着一个重要的范式转变：

过去：开源模型的目标是”追上 GPT/Claude”，评价标准是单一的性能排行榜。

现在：四款国产开源模型在 Arena 上都接近或达到闭源旗舰水平，评价标准转向了场景适配度：

需要最快原型迭代 → Kimi K2.6
需要最全面能力 → GLM-5.1
需要最低成本生产部署 → DeepSeek V4
需要终端设备集成 → MiMo V2.5 Pro

这不是”谁取代谁”的故事，而是”分工协作”的生态形成。

信号解读

17 天 4 款旗舰模型的发布密度本身就是信号。这不是偶然的巧合——它反映了：

技术收敛：MoE 架构、GRPO 优化、Thinking Token 等核心技术的成熟，使得各家的研发周期大幅缩短
竞争加速：任何一家发布新模型，其他家必须在数周内跟进，否则会被市场认为”落后”
成本坍塌：训练和推理成本的持续下降，使得发布旗舰模型的门槛正在快速降低

同时，GLM-5.1 在华为昇腾上完成训练这一事实，进一步打破了”只有英伟达芯片才能训练前沿模型”的叙事。算力供应链的多元化正在从理论走向实践。

行动建议

Agent 框架开发者：建议建立”多模型路由”策略——将 Kimi K2.6 作为快速响应的默认模型，GLM-5.1 作为复杂任务的备选，DeepSeek V4 作为批量处理的成本优化选项。
企业技术选型：不要只看排行榜上的单一分数。根据你的实际场景（延迟敏感度、并发需求、数据隐私要求）来选择模型。
个人开发者：Kimi K2.6 的免费推理服务是目前最低门槛的旗舰模型体验方式，建议从它开始。

交叉验证

这一判断得到多个独立信号的印证：社区实测（497 赞、185 收藏的对比帖）、Arena Leaderboard 的排名变化、以及各模型在 SWE-bench 和 LiveCodeBench 上的表现一致性。同时，智谱 Coding Plan 的热销和 Kimi 密集融资（半年超 39 亿美元）从商业化角度佐证了这些模型的市场竞争力。

当四款国产开源模型同时达到前沿水平，竞争的性质已经从”能否追上”变成了”如何差异化”。这是中国 AI 行业走向成熟的标志。