Команда Qwen открыла FlashQLA — набор высокопроизводительных ядер линейного внимания, построенных на TileLang.
Основные метрики
| Метрика | Улучшение |
|---|---|
| Прямой вывод | 2-3× ускорение |
| Обратное обучение | 2× ускорение |
| Целевое оборудование | Потребительские GPU / личные устройства |
| Сценарий | Развёртывание агентов на устройстве |
Почему это важно
FlashQLA — это оптимизация на уровне инфраструктуры, напрямую воздействующая на движки вывода. Когда CUDA-ядра интегрируются в vLLM, llama.cpp, SGLang, стоимость вывода всех моделей Qwen снизится в 2-3 раза.
Источники: Qwen GitHub, X/Twitter