Qwen チームが FlashQLA をオープンソース化した——TileLang で構築された高性能リニアアテンションカーネルのセットだ。
コア指標
| 指標 | 改善 |
|---|---|
| 前方推論 | 2-3倍高速化 |
| 後方学習 | 2倍高速化 |
| 対象ハードウェア | コンシューマーGPU / 個人デバイス |
| 対象シナリオ | エージェントAIの端末側デプロイ |
なぜ注目すべきか
FlashQLA は「ベンチマーク chasing」モデルではない。推論エンジンに直接作用するインフラレベルの最適化だ:
- CUDA カーネルが vLLM、llama.cpp、SGLang に統合されれば、すべての Qwen モデルの推論コストが 2-3 倍下がる
- 端末側エージェントシナリオ(スマホ、ノートPC、エッジデバイス)では、これまで動かなかったモデルが動くようになる
主要情報源:Qwen GitHub、X/Twitter