C
ChaoBro

小米 MiMo-V2.5-Pro 登顶 GDPval-AA 评测,中国开源模型五强格局重塑

小米 MiMo-V2.5-Pro 登顶 GDPval-AA 评测,中国开源模型五强格局重塑

核心结论

GDPval-AA 最新一轮真实世界 Agentic 工作评测结果出炉,小米 MiMo-V2.5-Pro 以 1578 分位列第一,终结了 DeepSeek 在此项评测中的连霸态势。五家中国头部开源模型的分差压缩到 94 分以内,竞争格局从”一家独大”转向”群雄并起”。

模型GDPval-AA 得分排名发布时间
小米 MiMo-V2.5-Pro157812026.05
DeepSeek V4 Pro155422026.04
GLM 5.1153532026.04
MiniMax M2.7151442026.04
Kimi K2.6148452026.04

发生了什么

GDPval-AA 是一项聚焦真实 Agentic 工作能力的评测基准,不同于传统的知识问答或选择题测试,它评估模型在实际任务中的规划、工具调用和多步推理能力。

MiMo-V2.5-Pro 的登顶有几个关键信号:

第一,手机厂商杀入基础模型战场。 小米此前在 AI 领域的存在感主要体现在端侧应用(手机 AI 助手、IoT 设备),MiMo 系列此前更多是作为自有生态的配套模型。V2.5-Pro 直接杀入开源榜单前列,意味着手机厂商正在从”AI 应用层”向”基础模型层”渗透。

第二,五强分差仅 94 分。 最高分 1578 与第五名 1484 之间仅差 6%,这意味着在这个评测维度上,中国头部开源模型已经进入了**“没有绝对王者”的竞争阶段**。用户选择不再由评测分数单一决定,而是需要结合 API 价格、上下文窗口、推理速度等综合因素。

横向对比:不同评测维度的胜负手

GDPval-AA 只是评测版图的一部分。综合多个独立评测源,五强模型各有侧重:

模型GDPval-AASWE-bench代码能力中文能力优势场景
MiMo-V2.5-Pro1578中等中上Agentic 工作流
DeepSeek V4 Pro1554全场景均衡
GLM 5.11535工具调用+中文
MiniMax M2.71514中等多模态
Kimi K2.61484极高极高代码生成

Kimi K2.6 在 GDPval-AA 中排名垫底,但在 SWE-bench(软件工程基准)中表现突出——这说明不同评测反映不同能力维度,选型时必须看具体场景而非单一分数

格局判断

2026 年 5 月是中国开源模型的”超级发布月”。除了上述五款,MiniMax M3 也在路上。这个时间点扎堆发布不是巧合——各家都在抢在 Google I/O(5 月中旬)和 Anthropic 开发者大会(5 月 6 日)之前完成产品卡位。

对于开发者和企业用户来说,现在是一个**“选择困难但也是最佳窗口期”**:

  • 如果你需要最强的 Agentic 工作流能力 → MiMo-V2.5-Pro 是当前首选
  • 如果你需要代码+中文+工具的全面均衡 → DeepSeek V4 Pro 或 GLM 5.1
  • 如果你聚焦软件工程场景 → Kimi K2.6 在 SWE-bench 上仍是最强
  • 如果你需要多模态能力 → MiniMax M2.7 值得测试

行动建议

  1. 不要只盯一个评测:GDPval-AA 侧重 Agentic 能力,SWE-bench 侧重代码,LMArena 侧重用户体感。根据你的实际使用场景选择参考基准。
  2. 亲自跑 Benchmark:各家模型在特定领域可能有评测未覆盖的优势。用你自己的任务集做 A/B 测试。
  3. 关注 API 价格战:模型能力接近后,价格将成为主要差异化因素。DeepSeek 此前已开启 API 降价,其他厂商预计跟进。