核心结论
小米在 2026 年 4 月底同时开源两款大语言模型,采用 MoE 架构,参数规模横跨 1T 和 310B 两个量级,均支持百万级 Token 上下文。更值得注意的是同步上线的 MiMo Orbit 开发者激励计划——最高 16 亿 Token 免费额度,直接对标国内主流厂商的开发者补贴策略。
模型参数与技术架构
| 维度 | MiMo-V2.5-Pro | MiMo-V2.5 |
|---|---|---|
| 总参数 | 1T | 310B |
| 激活参数 | 42B | 15B |
| 上下文窗口 | 1M Token | 1M Token |
| 架构 | MoE | MoE |
| 许可 | MIT | MIT |
| 定位 | 复杂 Agent + 软件工程 | 多模态 Agent |
| 商用 | ✅ 无需额外授权 | ✅ 无需额外授权 |
三件套架构支撑万亿稀疏 + 百万长文:
- 混合注意力(Hybrid Attention):结合滑动窗口注意力和全局注意力,在百万级上下文中保持计算效率
- 稀疏 MoE 路由:1T 总参数中仅激活 42B,推理成本可控
- 长文优化:专门针对 1M Token 场景优化了 KV Cache 管理和注意力衰减策略
对比同档开源模型
| 模型 | 总参数 | 激活参数 | 上下文 | 开源许可 |
|---|---|---|---|---|
| MiMo-V2.5-Pro | 1T | 42B | 1M | MIT |
| Kimi K2.6 | 1T | 32B | 1M | 开源 |
| DeepSeek-V4 | 1.6T | 49B | - | 开源 |
| Qwen 3.6 | 不同规格 | - | - | Apache 2.0 |
MiMo-V2.5-Pro 在激活参数量上与 Kimi K2.6 接近(42B vs 32B),但总参数规模相当。在 Intelligence Index 上,MiMo V2.5 Pro 得分约 54,低于 Kimi K2.6 但差距不大,两者均落后于 GPT-5.5(60 分)。
100T Token 激励计划:抢开发者生态
小米同步上线 MiMo Orbit 开发者激励计划,面向全球 AI 开发者发放免费 Token:
- 最高额度:16 亿 Token
- 审核机制:根据 GitHub 活跃度和 AI 使用历史自动审核
- 审批速度:据用户反馈,申请后约 1 分钟即可获批
- 目标人群:高质量 AI 应用开发者
这套策略与百川、月之暗面的开发者补贴逻辑一致——用免费算力换取生态绑定和模型反馈。
罗福莉带队:从 DeepSeek 到小米的技术路线
MiMo 系列由罗福莉(前阿里达摩院、DeepSeek 核心成员)带领团队研发。她在接受 3.5 小时技术专访时透露了几个关键判断:
- Pre-train 代差已基本消失:国内头部团队在预训练层面与 Anthropic 等领先者的差距正在快速缩小
- 竞争焦点转向 Agent RL:下一代模型能力的胜负手在 Agent 强化学习,而非单纯的预训练规模
- 开源是必经之路:通过开源快速获取社区反馈和真实场景数据
行动建议
| 场景 | 推荐 | 理由 |
|---|---|---|
| 本地部署 Agent | MiMo-V2.5(15B 激活) | 激活参数小,显存需求低 |
| 复杂编程任务 | MiMo-V2.5-Pro | 专为软件工程设计,1M 上下文 |
| 商业化应用 | 两者皆可 | MIT 许可,无额外授权限制 |
| 开发者测试 | MiMo Orbit 免费额度 | 零成本验证模型能力 |
MiMo-V2.5 系列的意义不仅在于参数规模,更在于小米以硬件厂商身份正式加入开源大模型竞争。配合小米硬件生态(手机、汽车、IoT),MiMo 有独特的端云协同想象空间。