小米 MiMo-V2.5 双模型开源:1T MoE + 310B MoE,百万上下文,100T Token 激励计划同步上线

小米 MiMo-V2.5 双模型开源:1T MoE + 310B MoE,百万上下文,100T Token 激励计划同步上线

核心结论

小米在 2026 年 4 月底同时开源两款大语言模型,采用 MoE 架构,参数规模横跨 1T 和 310B 两个量级,均支持百万级 Token 上下文。更值得注意的是同步上线的 MiMo Orbit 开发者激励计划——最高 16 亿 Token 免费额度,直接对标国内主流厂商的开发者补贴策略。

模型参数与技术架构

维度MiMo-V2.5-ProMiMo-V2.5
总参数1T310B
激活参数42B15B
上下文窗口1M Token1M Token
架构MoEMoE
许可MITMIT
定位复杂 Agent + 软件工程多模态 Agent
商用✅ 无需额外授权✅ 无需额外授权

三件套架构支撑万亿稀疏 + 百万长文

  1. 混合注意力(Hybrid Attention):结合滑动窗口注意力和全局注意力,在百万级上下文中保持计算效率
  2. 稀疏 MoE 路由:1T 总参数中仅激活 42B,推理成本可控
  3. 长文优化:专门针对 1M Token 场景优化了 KV Cache 管理和注意力衰减策略

对比同档开源模型

模型总参数激活参数上下文开源许可
MiMo-V2.5-Pro1T42B1MMIT
Kimi K2.61T32B1M开源
DeepSeek-V41.6T49B-开源
Qwen 3.6不同规格--Apache 2.0

MiMo-V2.5-Pro 在激活参数量上与 Kimi K2.6 接近(42B vs 32B),但总参数规模相当。在 Intelligence Index 上,MiMo V2.5 Pro 得分约 54,低于 Kimi K2.6 但差距不大,两者均落后于 GPT-5.5(60 分)。

100T Token 激励计划:抢开发者生态

小米同步上线 MiMo Orbit 开发者激励计划,面向全球 AI 开发者发放免费 Token:

  • 最高额度:16 亿 Token
  • 审核机制:根据 GitHub 活跃度和 AI 使用历史自动审核
  • 审批速度:据用户反馈,申请后约 1 分钟即可获批
  • 目标人群:高质量 AI 应用开发者

这套策略与百川、月之暗面的开发者补贴逻辑一致——用免费算力换取生态绑定和模型反馈。

罗福莉带队:从 DeepSeek 到小米的技术路线

MiMo 系列由罗福莉(前阿里达摩院、DeepSeek 核心成员)带领团队研发。她在接受 3.5 小时技术专访时透露了几个关键判断:

  • Pre-train 代差已基本消失:国内头部团队在预训练层面与 Anthropic 等领先者的差距正在快速缩小
  • 竞争焦点转向 Agent RL:下一代模型能力的胜负手在 Agent 强化学习,而非单纯的预训练规模
  • 开源是必经之路:通过开源快速获取社区反馈和真实场景数据

行动建议

场景推荐理由
本地部署 AgentMiMo-V2.5(15B 激活)激活参数小,显存需求低
复杂编程任务MiMo-V2.5-Pro专为软件工程设计,1M 上下文
商业化应用两者皆可MIT 许可,无额外授权限制
开发者测试MiMo Orbit 免费额度零成本验证模型能力

MiMo-V2.5 系列的意义不仅在于参数规模,更在于小米以硬件厂商身份正式加入开源大模型竞争。配合小米硬件生态(手机、汽车、IoT),MiMo 有独特的端云协同想象空间。