核心判断
月之暗面(Moonshot AI)的 Kimi K3 已进入研发后期,参数量达 2.5T,计划 2026 年 Q3 正式发布。这是继 4 月中旬开源 Kimi K2.6(1T MoE)之后的下一代产品,参数规模直接翻倍以上。
Kimi 系列演进路线
| 版本 | 发布时间 | 总参数 | 激活参数 | Intelligence Index | 关键能力 |
|---|---|---|---|---|---|
| K2 | 2025 | - | - | - | 基础对话、长文 |
| K2.6 | 2026.4 | 1T | 32B | ~54 | Agent Swarm、SWE-Bench 领先 |
| K3 | 2026.Q3 | 2.5T | TBD | TBD | 下一代全面能力 |
K2.6 发布后,在 Intelligence Index 上获得约 54 分,位居第 5,落后于 GPT-5.5(60 分),但超过了 Gemini 和 Claude 5(57 分)的部分评测维度。
K2.6 的遗产:为什么 K3 值得期待
K2.6 开源后在社区引起广泛关注,主要体现在三个维度:
1. Agent Swarm 能力 K2.6 在多 Agent 协作场景中表现出色,特别是在需要多个 Agent 分工协作的复杂任务中。这与月之暗面在 Agent 方向的战略投入一致。
2. SWE-Bench 表现 K2.6 在 SWE-Bench 上达到开源模型领先水平,证明其在软件工程场景下的实用性。这也是国产模型首次在代码 Agent 领域与 GPT/Claude 正面竞争。
3. 长上下文处理 1M Token 上下文窗口加上 32B 激活参数的 MoE 架构,使得 K2.6 在长文理解上成本效益突出。
2.5T 参数意味着什么?
从 1T 到 2.5T 的跨越并非简单的规模放大,而是架构层面的升级:
| 维度 | 挑战 | 可能的解决方案 |
|---|---|---|
| 训练算力 | 2.5T 需要万卡级集群 | 月之暗面自建算力 + 国产芯片适配 |
| MoE 路由 | 更多 Expert 的调度效率 | 更细粒度 Expert 切分 |
| 推理成本 | 激活参数控制 | 动态激活策略,按需加载 |
| 训练数据 | 高质量数据稀缺 | 合成数据 + 强化学习 |
参考 DeepSeek-V4 的 1.6T/49B MoE 架构,K3 的 2.5T 很可能采用更激进的 MoE 设计,总参数量远超激活参数,以控制推理成本。
竞争格局判断
K3 发布后,国产开源模型的竞争格局将重新洗牌:
- Qwen 3.6:阿里通义千问目前综合实力最强,但 K3 的 2.5T 参数可能缩小差距
- DeepSeek V4:1.6T MoE 架构已验证了规模路线,K3 将进一步追赶
- MiMo-V2.5:小米 1T MoE 刚发布,K3 在参数规模上直接领先
- GLM 系列:智谱也在持续迭代,但近期声音相对较小
行动建议
| 场景 | 当前选择 | K3 发布后 |
|---|---|---|
| 生产环境 Agent | K2.6 已开源可用 | 等待 K3 评测 |
| 长文处理 | K2.6 性价比高 | 评估 K3 的上下文效率 |
| 代码生成 | K2.6 SWE-Bench 领先 | K3 可能进一步拉开差距 |
| 本地部署 | K2.6 激活参数 32B | 取决于 K3 的激活参数设计 |
K3 的发布时间窗口(Q3)恰逢国内 AI 模型的密集迭代期,届时 Qwen、DeepSeek、MiMo 都可能有新版本,Q3 将成为国产模型竞争的爆发点。