オープンソース

Qwen チームが FlashQLA をオープンソース化：リニアアテンションカーネルで推論 2-3 倍高速化

2026年4月30日 by ChaoBro

#FlashQLA #Qwen #リニアアテンション #TileLang #端末側AI

Qwen チームが FlashQLA をオープンソース化：リニアアテンションカーネルで推論 2-3 倍高速化

Qwen チームが FlashQLA をオープンソース化した——TileLang で構築された高性能リニアアテンションカーネルのセットだ。

コア指標

指標	改善
前方推論	2-3倍高速化
後方学習	2倍高速化
対象ハードウェア	コンシューマーGPU / 個人デバイス
対象シナリオ	エージェントAIの端末側デプロイ

なぜ注目すべきか

FlashQLA は「ベンチマーク chasing」モデルではない。推論エンジンに直接作用するインフラレベルの最適化だ：

CUDA カーネルが vLLM、llama.cpp、SGLang に統合されれば、すべての Qwen モデルの推論コストが 2-3 倍下がる
端末側エージェントシナリオ（スマホ、ノートPC、エッジデバイス）では、これまで動かなかったモデルが動くようになる

主要情報源：Qwen GitHub、X/Twitter