Qwen3.6 27B 以小博大：27B 参数干翻 284B 模型的 Intelligence Index 之谜

在 AI 模型的竞赛中，长久以来存在一个默认假设：参数越多 = 能力越强。但 Intelligence Index 最新发布的数据正在打破这个假设。

核心数据

Qwen3.6 27B 在 Intelligence Index 上的 GDPval-AA 测试中取得了 1414 Elo 的评分。这个数字的意义在于：

模型	参数量	GDPval-AA Elo
Qwen3.6 27B	27B	1414
DeepSeek V4 Flash (Reasoning, High Effort)	284B (1.6T MoE)	1414
Meta Muse Spark	未公开	1414
Qwen3.5 27B	27B	1157
Gemma 4 26B	26B	~1350

核心结论：Qwen3.6 27B 以不到 DeepSeek V4 Flash 十分之一的参数量，取得了完全相同的评分。相比上一代 Qwen3.5 27B，暴涨了 257 Elo。

在 Intelligence Index 的评价体系中，257 分的提升大致相当于跨越了一个完整的模型代际。作为参照：

而且这是在参数不变（仍然是 27B）的前提下实现的。这意味着提升完全来自训练方法、数据质量和架构优化——而非堆参数。

在 150B 总参数以下的开放权重模型中，Qwen 系列占据了统治地位：

Qwen 包揽了前三名。这不是巧合——阿里通义团队在小参数效率优化上已经形成了方法论优势。

1. 推理成本革命

27B 模型的推理成本大约是 284B 模型的 1/10。如果能力相当，这意味着：

2. 开源生态的转折点

当 27B 开放权重模型能匹敌数百亿参数的闭源模型时，“只有大厂才能训练好模型”的叙事开始崩塌。独立开发者和中小企业可以在本地运行一个”够用”的模型，而无需依赖云端 API。

3. 对国产模型格局的影响

Qwen 在效率上的领先意味着：在同样的算力预算下，Qwen 可以跑得更快、更便宜、规模更大。这在下沉市场和端侧场景中是决定性优势。

参数竞赛的下一个阶段不是”谁更大”，而是**“谁更高效”**。Qwen3.6 27B 已经给出了答案。