核心结论
MiniMax 正在走出与 DeepSeek、Kimi、GLM 不同的产品路线:聚焦 Office 办公场景的 Agent 化能力。M2.7 在 GDPval-AA 评测中得分 1514(排名第四),但即将发布的 M3 版本首次展示了 Office Agent 能力预览,瞄准了文档处理、PPT 生成、数据分析等高频办公场景。
M2.7 的基准表现
在 GDPval-AA(真实世界 Agentic 工作评测)中,中国头部开源模型的最新排名:
| 模型 | GDPval-AA 得分 | 多模态能力 | 代码能力 | 优势场景 |
|---|---|---|---|---|
| 小米 MiMo-V2.5-Pro | 1578 | 中 | 中上 | Agentic 工作流 |
| DeepSeek V4 Pro | 1554 | 高 | 高 | 全场景均衡 |
| GLM 5.1 | 1535 | 高 | 高 | 工具调用+中文 |
| MiniMax M2.7 | 1514 | 高 | 中 | 多模态生成 |
| Kimi K2.6 | 1484 | 中 | 极高 | 代码生成 |
M2.7 的 GDPval-AA 得分不是最高,但它有一个独特优势:多模态生成能力在中国开源模型中处于领先地位。这为 M3 的 Office Agent 路线奠定了技术基础。
M3 的新方向:Office Agent
根据 5 月初的信息,M3 版本首次展示了 Office Agent 能力预览,具体包括:
| Office 场景 | 能力描述 | 竞品对比 |
|---|---|---|
| PPT 生成 | 根据主题自动生成演示文稿(内容+排版+配图) | Claude Design 可生成设计稿,但不直接输出 PPT 文件 |
| 文档处理 | Word 文档的内容理解、格式调整、摘要生成 | Google Gemini 有 Docs 集成,但中文支持弱 |
| 数据分析 | Excel 表格的数据分析、图表生成、趋势解读 | OpenAI 有 Code Interpreter,但不支持中文办公场景 |
| 会议助手 | 会议录音转写→纪要生成→待办事项提取 | Kimi 有长文本处理,但不直接生成办公文档 |
关键差异化:MiniMax 的 Office Agent 不是简单的”AI+Office”,而是将多模态生成能力直接嵌入办公文档的创建和编辑流程。用户不需要切换工具,AI 就在文档内工作。
五月 AI 模型发布大战
2026 年 5 月是 AI 模型的”超级发布月”,各家的发布计划:
| 时间 | 公司 | 发布内容 | 定位 |
|---|---|---|---|
| 5 月上旬 | Anthropic | 开发者大会 + Sonnet 4.8 | 企业 AI 代理 |
| 5 月中旬 | I/O ‘26 + Gemini 3.2 Flash | 个人 AI 工作层 | |
| 5 月 | OpenAI | GPT 5.6 | 通用能力升级 |
| 5 月 | MiniMax | M3 + Office Agent | 办公场景 Agent |
MiniMax 选择在这个时间点发布 Office Agent 预览,意图明显:在巨头们争夺”通用 AI”和”开发者 AI”的同时,MiniMax 抢占”办公 AI”这个细分赛道。
格局判断
中国模型竞争正在从”评测分数战”转向”场景差异化”。 过去各家都在拼 SWE-bench、MMLU 等通用基准的分数,但现在头部模型在通用能力上的差距已经缩小到 6% 以内(GDPval-AA 最高 1578 vs 最低 1484)。
接下来的竞争维度将是:
- 场景专精:谁在特定场景(办公、代码、医疗、法律)做得更好
- 生态整合:谁更好地嵌入用户已有的工作流
- 成本效率:同等能力下谁的 API 价格更低、推理速度更快
MiniMax 的 Office Agent 路线正是第一个维度的典型案例。
行动建议
| 角色 | 建议 |
|---|---|
| 办公场景用户 | 如果你的核心需求是 PPT 生成、文档处理、数据分析,MiniMax M3 值得重点关注。等正式发布后做 A/B 测试 |
| 开发者 | M2.7 的多模态能力已经可通过 API 使用,适合需要中文+多模态生成的应用 |
| 投资者 | 关注 MiniMax 的商业化路径。Office Agent 是离付费场景最近的 AI 能力之一(企业办公付费意愿强) |