核心结论
GDPval-AA 最新一轮真实世界 Agentic 工作评测结果出炉,小米 MiMo-V2.5-Pro 以 1578 分位列第一,终结了 DeepSeek 在此项评测中的连霸态势。五家中国头部开源模型的分差压缩到 94 分以内,竞争格局从”一家独大”转向”群雄并起”。
| 模型 | GDPval-AA 得分 | 排名 | 发布时间 |
|---|---|---|---|
| 小米 MiMo-V2.5-Pro | 1578 | 1 | 2026.05 |
| DeepSeek V4 Pro | 1554 | 2 | 2026.04 |
| GLM 5.1 | 1535 | 3 | 2026.04 |
| MiniMax M2.7 | 1514 | 4 | 2026.04 |
| Kimi K2.6 | 1484 | 5 | 2026.04 |
发生了什么
GDPval-AA 是一项聚焦真实 Agentic 工作能力的评测基准,不同于传统的知识问答或选择题测试,它评估模型在实际任务中的规划、工具调用和多步推理能力。
MiMo-V2.5-Pro 的登顶有几个关键信号:
第一,手机厂商杀入基础模型战场。 小米此前在 AI 领域的存在感主要体现在端侧应用(手机 AI 助手、IoT 设备),MiMo 系列此前更多是作为自有生态的配套模型。V2.5-Pro 直接杀入开源榜单前列,意味着手机厂商正在从”AI 应用层”向”基础模型层”渗透。
第二,五强分差仅 94 分。 最高分 1578 与第五名 1484 之间仅差 6%,这意味着在这个评测维度上,中国头部开源模型已经进入了**“没有绝对王者”的竞争阶段**。用户选择不再由评测分数单一决定,而是需要结合 API 价格、上下文窗口、推理速度等综合因素。
横向对比:不同评测维度的胜负手
GDPval-AA 只是评测版图的一部分。综合多个独立评测源,五强模型各有侧重:
| 模型 | GDPval-AA | SWE-bench | 代码能力 | 中文能力 | 优势场景 |
|---|---|---|---|---|---|
| MiMo-V2.5-Pro | 1578 | 中等 | 中上 | 中 | Agentic 工作流 |
| DeepSeek V4 Pro | 1554 | 高 | 高 | 高 | 全场景均衡 |
| GLM 5.1 | 1535 | 高 | 高 | 高 | 工具调用+中文 |
| MiniMax M2.7 | 1514 | 中等 | 中 | 中 | 多模态 |
| Kimi K2.6 | 1484 | 极高 | 极高 | 高 | 代码生成 |
Kimi K2.6 在 GDPval-AA 中排名垫底,但在 SWE-bench(软件工程基准)中表现突出——这说明不同评测反映不同能力维度,选型时必须看具体场景而非单一分数。
格局判断
2026 年 5 月是中国开源模型的”超级发布月”。除了上述五款,MiniMax M3 也在路上。这个时间点扎堆发布不是巧合——各家都在抢在 Google I/O(5 月中旬)和 Anthropic 开发者大会(5 月 6 日)之前完成产品卡位。
对于开发者和企业用户来说,现在是一个**“选择困难但也是最佳窗口期”**:
- 如果你需要最强的 Agentic 工作流能力 → MiMo-V2.5-Pro 是当前首选
- 如果你需要代码+中文+工具的全面均衡 → DeepSeek V4 Pro 或 GLM 5.1
- 如果你聚焦软件工程场景 → Kimi K2.6 在 SWE-bench 上仍是最强
- 如果你需要多模态能力 → MiniMax M2.7 值得测试
行动建议
- 不要只盯一个评测:GDPval-AA 侧重 Agentic 能力,SWE-bench 侧重代码,LMArena 侧重用户体感。根据你的实际使用场景选择参考基准。
- 亲自跑 Benchmark:各家模型在特定领域可能有评测未覆盖的优势。用你自己的任务集做 A/B 测试。
- 关注 API 价格战:模型能力接近后,价格将成为主要差异化因素。DeepSeek 此前已开启 API 降价,其他厂商预计跟进。