Команда Qwen открыла FlashQLA: ядра линейного внимания ускоряют вывод в 2-3 раза

Команда Qwen открыла FlashQLA: ядра линейного внимания ускоряют вывод в 2-3 раза

Команда Qwen открыла FlashQLA — набор высокопроизводительных ядер линейного внимания, построенных на TileLang.

Основные метрики

МетрикаУлучшение
Прямой вывод2-3× ускорение
Обратное обучение2× ускорение
Целевое оборудованиеПотребительские GPU / личные устройства
СценарийРазвёртывание агентов на устройстве

Почему это важно

FlashQLA — это оптимизация на уровне инфраструктуры, напрямую воздействующая на движки вывода. Когда CUDA-ядра интегрируются в vLLM, llama.cpp, SGLang, стоимость вывода всех моделей Qwen снизится в 2-3 раза.


Источники: Qwen GitHub, X/Twitter