小米 MiMo-V2.5-Pro 登顶 GDPval-AA 评测，中国开源模型五强格局重塑

核心结论

GDPval-AA 最新一轮真实世界 Agentic 工作评测结果出炉，小米 MiMo-V2.5-Pro 以 1578 分位列第一，终结了 DeepSeek 在此项评测中的连霸态势。五家中国头部开源模型的分差压缩到 94 分以内，竞争格局从”一家独大”转向”群雄并起”。

模型	GDPval-AA 得分	排名	发布时间
小米 MiMo-V2.5-Pro	1578	1	2026.05
DeepSeek V4 Pro	1554	2	2026.04
GLM 5.1	1535	3	2026.04
MiniMax M2.7	1514	4	2026.04
Kimi K2.6	1484	5	2026.04

GDPval-AA 是一项聚焦真实 Agentic 工作能力的评测基准，不同于传统的知识问答或选择题测试，它评估模型在实际任务中的规划、工具调用和多步推理能力。

MiMo-V2.5-Pro 的登顶有几个关键信号：

第一，手机厂商杀入基础模型战场。 小米此前在 AI 领域的存在感主要体现在端侧应用（手机 AI 助手、IoT 设备），MiMo 系列此前更多是作为自有生态的配套模型。V2.5-Pro 直接杀入开源榜单前列，意味着手机厂商正在从”AI 应用层”向”基础模型层”渗透。

第二，五强分差仅 94 分。 最高分 1578 与第五名 1484 之间仅差 6%，这意味着在这个评测维度上，中国头部开源模型已经进入了**“没有绝对王者”的竞争阶段**。用户选择不再由评测分数单一决定，而是需要结合 API 价格、上下文窗口、推理速度等综合因素。

GDPval-AA 只是评测版图的一部分。综合多个独立评测源，五强模型各有侧重：

模型	GDPval-AA	SWE-bench	代码能力	中文能力	优势场景
MiMo-V2.5-Pro	1578	中等	中上	中	Agentic 工作流
DeepSeek V4 Pro	1554	高	高	高	全场景均衡
GLM 5.1	1535	高	高	高	工具调用+中文
MiniMax M2.7	1514	中等	中	中	多模态
Kimi K2.6	1484	极高	极高	高	代码生成

Kimi K2.6 在 GDPval-AA 中排名垫底，但在 SWE-bench（软件工程基准）中表现突出——这说明不同评测反映不同能力维度，选型时必须看具体场景而非单一分数。

2026 年 5 月是中国开源模型的”超级发布月”。除了上述五款，MiniMax M3 也在路上。这个时间点扎堆发布不是巧合——各家都在抢在 Google I/O（5 月中旬）和 Anthropic 开发者大会（5 月 6 日）之前完成产品卡位。

对于开发者和企业用户来说，现在是一个**“选择困难但也是最佳窗口期”**：

不要只盯一个评测：GDPval-AA 侧重 Agentic 能力，SWE-bench 侧重代码，LMArena 侧重用户体感。根据你的实际使用场景选择参考基准。
亲自跑 Benchmark：各家模型在特定领域可能有评测未覆盖的优势。用你自己的任务集做 A/B 测试。
关注 API 价格战：模型能力接近后，价格将成为主要差异化因素。DeepSeek 此前已开启 API 降价，其他厂商预计跟进。