Команда Qwen открыла FlashQLA: ядра линейного внимания ускоряют вывод в 2-3 раза

Команда Qwen открыла FlashQLA — набор высокопроизводительных ядер линейного внимания, построенных на TileLang.

Основные метрики

Метрика	Улучшение
Прямой вывод	2-3× ускорение
Обратное обучение	2× ускорение
Целевое оборудование	Потребительские GPU / личные устройства
Сценарий	Развёртывание агентов на устройстве

Почему это важно

FlashQLA — это оптимизация на уровне инфраструктуры, напрямую воздействующая на движки вывода. Когда CUDA-ядра интегрируются в vLLM, llama.cpp, SGLang, стоимость вывода всех моделей Qwen снизится в 2-3 раза.

Источники: Qwen GitHub, X/Twitter

Основные метрики

Почему это важно

Похожие материалы

AgentField: управление AI-агентами как Pod — новый игрок в AI-нативной инфраструктуре

Microsoft открывает Agent Lightning: Framework RL-обучения без вмешательства для любого AI-агента

NVIDIA Nemotron 3 Nano Omni: Открытая мультимодальная модель для AI-агентов на потребительских видеокартах