情报摘要
2026 年 4 月下旬到 5 月初,中国 AI 行业在 17 天内密集发布了四款开源/开放权重旗舰模型:
- GLM-5.1(智谱):754B MoE,MIT 开源协议
- Kimi K2.6(月之暗面):1T MoE,开放权重
- DeepSeek V4(深度求索):万亿级 MoE,开源
- MiMo V2.5 Pro(小米):多模态开源模型
社区实测结论简洁而有力:Kimi K2.6 是最快的,GLM-5.1 是最”炫”的,DeepSeek V4 是最全面的,小米 MiMo 是最慢的。
但这句简单的评价背后,是中国开源 AI 从”追赶叙事”到”差异化竞争”的深刻转变。
四款模型的能力画像
GLM-5.1:最”炫”的全能选手
GLM-5.1 的关键词是功能完备性。754B MoE 架构赋予了它在各维度都不短板的能力:
- 编码能力:在代码竞技场中排名国产第一,超越 Kimi K2.6 和 DeepSeek V4 Pro
- Agent 工具调用:专为长时间自主执行和复杂工程任务优化
- 华为昇腾训练:完全在非 NVIDIA 芯片上训练,零英伟达依赖
“最炫”的实质是:GLM-5.1 在功能广度上最接近闭源旗舰模型。它不是某个单项的冠军,但是最接近”全能”的开源选项。
Kimi K2.6:速度之王
Kimi K2.6 的杀手锏是推理速度。1T 参数的 MoE 架构中,每个 token 仅激活约 320 亿参数,这意味着:
- 免费可用:在 Fireworks AI 等平台上提供免费的推理服务
- 编码+数学双强:LiveCodeBench v6 得分 53.7%,超越 Claude Sonnet 4
- 256K 上下文窗口:支持图像和视频输入
社区共识是:如果你需要快速迭代和低成本原型开发,Kimi K2.6 是目前最好的选择。它的”快”不只是推理速度快,更是从想法到代码的迭代速度。
DeepSeek V4:全面但垫底?
DeepSeek V4 在 Arena 编码榜单中排名国产第四,这个结果引发了一些讨论。但需要正确理解”垫底”的含义:
- 对比基准是国产旗舰:第四名仍然是世界级水平
- SWE-bench 80.6%:与 Claude Opus 4.6(80.8%)仅差 0.2 个百分点
- 成本优势:API 价格远低于同等性能的闭源模型
DeepSeek V4 的”全面”体现在:它在编码、推理、数学、多模态等多个维度都保持了一流水准,没有一个明显短板。但在这个级别的竞争中,“没有短板”不等于”有长板”。
MiMo V2.5 Pro:慢但有惊喜
小米 MiMo V2.5 Pro 是四款中推理速度最慢的,但它有一个独特的定位:消费级 GPU 可运行。
- 多模态原生:从设计之初就是多模态模型,不是后期拼接
- 小米生态整合:与小米手机、汽车、IoT 设备的深度集成
- GDPVal 评估领先:在特定评测维度上表现突出
“慢”对于小米来说可能不是问题——小米的商业模式决定了它更关注终端用户体验而非极致推理速度。
格局重排:从”谁更强”到”谁更适合”
这四款模型的同时存在,标志着一个重要的范式转变:
过去:开源模型的目标是”追上 GPT/Claude”,评价标准是单一的性能排行榜。
现在:四款国产开源模型在 Arena 上都接近或达到闭源旗舰水平,评价标准转向了场景适配度:
- 需要最快原型迭代 → Kimi K2.6
- 需要最全面能力 → GLM-5.1
- 需要最低成本生产部署 → DeepSeek V4
- 需要终端设备集成 → MiMo V2.5 Pro
这不是”谁取代谁”的故事,而是”分工协作”的生态形成。
信号解读
17 天 4 款旗舰模型的发布密度本身就是信号。这不是偶然的巧合——它反映了:
- 技术收敛:MoE 架构、GRPO 优化、Thinking Token 等核心技术的成熟,使得各家的研发周期大幅缩短
- 竞争加速:任何一家发布新模型,其他家必须在数周内跟进,否则会被市场认为”落后”
- 成本坍塌:训练和推理成本的持续下降,使得发布旗舰模型的门槛正在快速降低
同时,GLM-5.1 在华为昇腾上完成训练这一事实,进一步打破了”只有英伟达芯片才能训练前沿模型”的叙事。算力供应链的多元化正在从理论走向实践。
行动建议
- Agent 框架开发者:建议建立”多模型路由”策略——将 Kimi K2.6 作为快速响应的默认模型,GLM-5.1 作为复杂任务的备选,DeepSeek V4 作为批量处理的成本优化选项。
- 企业技术选型:不要只看排行榜上的单一分数。根据你的实际场景(延迟敏感度、并发需求、数据隐私要求)来选择模型。
- 个人开发者:Kimi K2.6 的免费推理服务是目前最低门槛的旗舰模型体验方式,建议从它开始。
交叉验证
这一判断得到多个独立信号的印证:社区实测(497 赞、185 收藏的对比帖)、Arena Leaderboard 的排名变化、以及各模型在 SWE-bench 和 LiveCodeBench 上的表现一致性。同时,智谱 Coding Plan 的热销和 Kimi 密集融资(半年超 39 亿美元)从商业化角度佐证了这些模型的市场竞争力。
当四款国产开源模型同时达到前沿水平,竞争的性质已经从”能否追上”变成了”如何差异化”。这是中国 AI 行业走向成熟的标志。