核心判断
2026 年 5 月初,国产大模型圈出现了一个值得注意的范式偏移:从「卷推理长度」转向「卷 token 效率」。
当闭源巨头们还在用越来越长的 Chain-of-Thought 来堆砌推理性能时,蚂蚁集团开源的 Ling-2.6-1T 打出了一套完全不同的牌——「快思考」执行模式:少废话、多干活。这不是口号,而是架构层面的差异化。
Ling-2.6-1T 的「快思考」到底是什么
Ling-2.6-1T 是一个总参数量 1 万亿、每次推理仅激活 630 亿(63B)的 MoE 模型。对比同参数规模的美国模型,它的核心差异不在于能力上限,而在于执行路径的效率。
闭源模型的典型行为模式是:面对一个 Agent 任务,先进行大量内部推理(可能产生数万个 reasoning token),然后才输出执行结果。这就像让一个程序员在写代码前先写五千字的设计文档——有用,但贵。
Ling-2.6-1T 的设计逻辑是反过来的:
能用 10 个 token 解决的,绝不用 100 个。
这种「快思考」模式的核心优势在 Agent 场景中体现得淋漓尽致:
| 场景 | 闭源模型典型 token 消耗 | Ling-2.6-1T token 消耗 |
|---|---|---|
| 代码 Bug 修复 | 5,000-20,000 | 1,500-5,000 |
| 多步 Agent 编排 | 30,000-100,000 | 8,000-25,000 |
| 简单工具调用 | 2,000-8,000 | 500-2,000 |
有开发者实测后总结了一句话:「闭源模型在表演思考,Ling 在直接干活。」
小米 MiMo-V2.5-Pro:同样的思路,不同的切入口
小米开源的 MiMo-V2.5-Pro(1T 参数,Code Agent 专用)也走了类似的路线。它的核心卖点是 1M context window + 极致 token 效率,benchmark 成绩直接对标 DeepSeek V4 Pro 和 Kimi K2.6。
MiMo-V2.5-Pro 的特殊之处在于它针对代码场景做了专门的 token 压缩优化:
- 在代码补全场景中,通过预训练阶段的代码结构理解,减少了大量冗余的上下文重复
- 在多轮对话编码中,利用代码 AST 感知来压缩历史对话的 token 开销
- MIT 协议 + 支持商用,这意味着企业可以直接拿来部署而不必担心许可证风险
DeepSeek 的 Token 效率遗产
其实这条路线的源头可以追溯到 DeepSeek。DeepSeek V4 的 MoE 架构(1T 参数 / 37B 激活)本身就是一次 token 效率的革命——用最少的激活参数实现最大的能力输出。
此后国产模型纷纷跟进:
| 模型 | 总参数 | 激活参数 | 激活率 | 核心策略 |
|---|---|---|---|---|
| DeepSeek V4 | ~1T | ~37B | ~3.7% | 极致 MoE 路由 |
| Ling-2.6-Flash | 104B | 7.4B | ~7.1% | 轻量级 Agent |
| Ling-2.6-1T | ~1T | ~63B | ~6.3% | 快思考执行 |
| MiMo-V2.5-Pro | ~1T | ~80B | ~8% | 代码场景优化 |
相比之下,美国主流模型的设计哲学更倾向于**「用更多 token 换取更高质量的输出」**——这在创意写作和复杂推理场景中确实有优势,但在需要高频调用的 Agent 场景中,这种设计就变成了成本黑洞。
为什么 token 效率正在成为核心竞争力
三个现实因素在推动这个趋势:
1. Agent 场景下的 token 消耗是指数级的
一个典型的 Agent 工作流(规划 → 执行 → 检查 → 修正 → 完成)可能涉及 5-10 轮模型调用。如果每轮调用都产生大量推理 token,总成本可以轻松超出预算 10 倍。
有开发者算了一笔账:用某个闭源模型运行一个中等复杂度的 coding agent 任务,一天的 token 消耗可能超过 $50;而切换到 token 效率优化过的国产模型后,同样的任务成本降到了 $3-5。
2. 订阅模式的成本天花板
目前国内模型的 Coding Plan Max(约 ¥80/月或 $80/月)已经能支撑每月 8 亿 token 的重度 agent 使用量。这意味着开发者可以用极低的成本获得接近闭源模型的能力。
但如果你用的是 token 消耗量大的模型,8 亿 token 可能只够跑几百个复杂 Agent 任务;而 token 效率高的模型,同样的预算能跑 数千个任务。
3. 边缘部署的需求
随着 Ollama 等本地推理工具的普及,越来越多的开发者希望在消费级硬件上运行大模型。token 效率高的模型意味着:
- 更低的显存占用
- 更快的推理速度
- 更适合 Jetson、RTX 等边缘设备
这是否意味着「推理长度」不重要了?
不是。这是一个场景分化的问题。
- 复杂推理、科学研究、长文创作:更长的推理链仍然有价值
- Agent 编排、代码生成、工具调用:token 效率是更关键的指标
国产模型目前的策略是先打透 Agent 场景的效率优势,再逐步向上延伸到更复杂的推理任务。这是一条务实的路线——先在高频、低成本场景中建立用户基础,再逐步提升能力上限。
行业影响:护城河可能正在转移
一位开发者在社交媒体上的评论切中要害:
「当大家都在卷参数、卷推理分、卷更长上下文,只有它反其道而行之,把 token 效率做到极致。护城河要塌了。」
这句话的背景是:闭源模型的「护城河」很大程度上建立在高昂的推理成本上——因为它们需要大量算力来支撑冗长的推理过程。一旦开源模型在关键场景下能以 1/10 的成本提供可比的能力,这道护城河就开始渗漏了。
选型建议
| 场景 | 推荐策略 |
|---|---|
| 重度 Agent 工作流 | Ling-2.6-1T 或 MiMo-V2.5-Pro,token 成本最低 |
| 日常代码辅助 | Ling-2.6-Flash(7.4B 激活,极致轻量) |
| 复杂推理任务 | DeepSeek V4 Pro 或 Kimi K2.6,推理深度更优 |
| 本地部署 | Ollama 上的量化版本,Ling-2.6-Flash INT4 仅需 ~4GB 显存 |
总结
2026 年的国产模型正在走一条与美国同行不同的路:不卷参数规模、不卷推理长度,而是用极致的 token 效率在 Agent 场景中建立竞争优势。
这不是退而求其次的妥协,而是一种更务实的技术路线选择——在大多数实际应用场景中,用户需要的不是「会思考的 AI」,而是「能高效干活的 AI」。
这条路线能否最终成功,取决于一个核心问题:当 token 效率足够高时,「快思考」模型的输出质量能否接近「慢思考」模型?
从目前的 benchmark 数据来看(Ling-2.6-1T SWE-Bench Verified 67 分,MiMo-V2.5-Pro 对标 DeepSeek V4 Pro),答案是非常接近。而这背后的成本差距,可能是决定性的。