Qwen3.6 27Bが小パラメータで大逆転:27Bが284Bモデルに匹敵するIntelligence Indexの謎

Qwen3.6 27Bが小パラメータで大逆転:27Bが284Bモデルに匹敵するIntelligence Indexの謎

AIモデル競争において、長らくデフォルトの仮定が存在した:パラメータが多い = 能力が高い。しかしIntelligence Indexの最新データはこの仮定を打ち破ろうとしている。

コアデータ

Qwen3.6 27BがGDPval-AAテストで1414 Eloを記録。この数字の意義:

モデルパラメータGDPval-AA Elo
Qwen3.6 27B27B1414
DeepSeek V4 Flash284B (1.6T MoE)1414
Meta Muse Spark未公開1414
Qwen3.5 27B27B1157

核心結論:Qwen3.6 27BはDeepSeek V4 Flashの10分の1未満のパラメータで全く同じスコアを達成。Qwen3.5 27Bと比較して257 Elo急増。

257 Eloの意味

Intelligence Index评价体系において、257ポイントの上昇は1世代のモデル迭代を跨越することに相当:

  • GPT-4 → GPT-4o:約150-200 Elo
  • Claude 3 Haiku → Sonnet:約100-150 Elo
  • Qwen3.5 → Qwen3.6:257 Elo = 1世代の改善を超える

しかもこれはパラメータ不変(引き続き27B)で達成された。改善は完全に訓練方法、データ品質、アーキテクチャ最適化による——パラメータの積み上げではない。

なぜ重要なのか

1. 推論コスト革命

27Bモデルの推論コストは284Bモデルの約1/10。能力が同等なら:

  • 自部署の閾値が大幅に低下(コンシューマーGPUで実行可能)
  • API呼び出しコストが1桁低下
  • エッジデプロイメントが「不可能」から「可能」に

2. オープンソースエコシステムの転換点

27Bのオープンウェイトモデルが数百億パラメータのクローズドモデルに匹敵するとき、「大企業しか良いモデルを訓練できない」という叙事が崩れ始める。

アクションアイテム

  • モデル選定中の方へ:極端なパフォーマンス要件がない場合、Qwen3.6 27Bは現在最高のコストパフォーマンス選択肢の可能性
  • エッジデプロイメント:27Bは現在RTX 4090(24GB)1枚でINT4量子化で実行可能な最大「トップクラス」モデル
  • オープンソース動向追跡:Qwen3.6の訓練方法論は深入研究の価値あり——「より多くのパラメータなしでより良くする」技術方向を代表

パラメータ競争の次の段階は「誰が大きいか」ではなく**「誰がより効率的か」**。Qwen3.6 27Bはすでに答えを出した。