Qwen3.6 27Bが家庭用サーバーで自己最適化：26時間で2.3から84.3 tok/sへの再帰的進化

コア発見

ユーザーがホームサーバー上でQwen3.6:27bを再帰的自己最適化実験で実行し、26時間で推論速度を2.3 tok/sから84.3 tok/sに改善——36倍以上の向上。これはGPUクラスターではなく、標準的なホームサーバーで達成された。

Qwen3.6 27Bはすでに強力なオープンソースモデル（Intelligence Indexスコア46、150Bパラメータ未満のオープンソースモデルで#1）だが、この実験は別の次元の可能性を明らかにした：モデルは推論できるだけでなく、自分の推論プロセスを最適化することもできる。

これはオープンソースモデルが「受動的な使用」から「能動的な適応」への転換を示している。

多くのユーザーがローカルで大規模モデルをデプロイする際にパフォーマンスのボトルネックに遭遇し、最初の反応は「より良いGPUが必要」だ。しかしこの実験は、適切な最適化戦略により、既存のハードウェアでコンシューマー機器が使用可能な推論速度を達成できることを示している。

84.3 tok/sの速度は多くのクラウドAPIの応答速度に近づいており、個人ユーザーにとってローカルデプロイはもはや「使えるが遅い」という妥協案ではない。

AMD GPUを持つユーザー: この実験はAMD GPUで大規模モデルを実行する可能性を実証。16GB以上のAMDカードを持っている場合は試す価値がある。
Qwen3.6ユーザー: デプロイ後にモデルに自己診断と最適化を試みて——予想外のパフォーマンス向上が得られる可能性がある。