Qwen チームが FlashQLA をオープンソース化:リニアアテンションカーネルで推論 2-3 倍高速化

Qwen チームが FlashQLA をオープンソース化:リニアアテンションカーネルで推論 2-3 倍高速化

Qwen チームが FlashQLA をオープンソース化した——TileLang で構築された高性能リニアアテンションカーネルのセットだ。

コア指標

指標改善
前方推論2-3倍高速化
後方学習2倍高速化
対象ハードウェアコンシューマーGPU / 個人デバイス
対象シナリオエージェントAIの端末側デプロイ

なぜ注目すべきか

FlashQLA は「ベンチマーク chasing」モデルではない。推論エンジンに直接作用するインフラレベルの最適化だ:

  • CUDA カーネルが vLLM、llama.cpp、SGLang に統合されれば、すべての Qwen モデルの推論コストが 2-3 倍下がる
  • 端末側エージェントシナリオ(スマホ、ノートPC、エッジデバイス)では、これまで動かなかったモデルが動くようになる

主要情報源:Qwen GitHub、X/Twitter