C
ChaoBro

NVIDIA LongLive-2.0: полностековая параллельная инфраструктура на базе NVFP4, ускорение обучения генерации длинных видео в 2.15 раза, скорость вывода — 45.7 FPS

NVIDIA LongLive-2.0: полностековая параллельная инфраструктура на базе NVFP4, ускорение обучения генерации длинных видео в 2.15 раза, скорость вывода — 45.7 FPS

Сегодня NVIDIA совместно с несколькими исследовательскими институтами представила LongLive-2.0 — статью, которая мгновенно набрала более 1270 голосов «за» на Hugging Face Daily Papers. Название может показаться заурядным, но содержание крайне технически насыщенным: первая система генерации длинных видео, в которой 4-битная точность NVFP4 используется на всех этапах обучения и вывода.

Генерация длинных видео (особенно авторегрессионных многокадровых и интерактивных роликов) всегда упиралась в два ограничения: видеопамять и скорость. Ответ LongLive-2.0 — снижение точности до 4 бит и применение параллелизма по последовательности как на этапе обучения, так и на этапе вывода.

Ключевые инновации: три шага

1. Balanced SP: авторегрессионное обучение с параллелизмом по последовательности

LongLive-2.0 предлагает схему параллелизма по последовательности под названием Balanced SP. Её основная идея заключается в том, что при авторегрессионном обучении временные блоки «чистой истории» и «шумовой цели» попарно размещаются на одном GPU-ранге, что естественным образом формирует маску teacher-forcing. В сочетании с блочным кодированием VAE, учитывающим особенности SP, чем длиннее видео, тем выше доля вычислений GEMM, и тем заметнее эффект ускорения от данного подхода.

Проще говоря: без инициализации через ОДУ и без дистилляции сопоставления распределений (DMD), модель напрямую дообучается из диффузионной в длинную многокадровую авторегрессионную диффузионную модель.

2. Полностековая точность NVFP4

Этап обучения: точность NVFP4 снижает потребление видеопамяти GPU и одновременно ускоряет вычисления GEMM. Этап вывода: на GPU Blackwell включается вывод W4A4 NVFP4, кэш KV также квантуется до NVFP4, а в сочетании с асинхронным потоковым декодированием VAE сквозная пропускная способность возрастает в 1.84 раза.

На GPU, не относящихся к архитектуре Blackwell, команда использует вывод с параллелизмом по последовательности для достижения скорости, сопоставимой с Blackwell. Квантованный кэш KV также позволяет снизить накладные расходы на межпроцессорную коммуникацию при использовании SP.

3. Чистый конвейер обучения

Существующие методы семейства Self-Forcing обычно требуют инициализации через ОДУ и дистилляции DMD, что усложняет процесс и часто приводит к нестабильности. LongLive-2.0 доказывает: высококачественная инфраструктура + высококачественный датасет = чистый и прямой процесс обучения. Всё делается за один шаг, без промежуточных этапов.

Показатели производительности

Показатель Значение
Ускорение обучения до 2.15×
Ускорение вывода до 1.84×
Частота кадров при выводе LongLive-2.0-5B достигает 45.7 FPS
Генерация в реальном времени Может быть преобразована в генерацию за 2–4 шага в реальном времени с помощью отдельных весов LoRA

Почему это важно

Значение LongLive-2.0 выходит за рамки «ещё одной модели для генерации видео». Она доказывает одну важную вещь: точность NVFP4 применима не только для вывода — её можно использовать и при обучении. Это означает, что в будущем обучение больших моделей можно будет проводить при более низкой точности и меньшем потреблении видеопамяти, сохраняя или даже повышая производительность.

Это особенно важно для области генерации видео, поскольку длина последовательностей видеоданных значительно превышает текстовые, а ограничения видеопамяти и вычислительных ресурсов проявляются гораздо острее.

Код, модели и демо уже открыты: github.com/NVlabs/LongLive

Основные источники:

  • arXiv:2605.18739 — статья LongLive-2.0
  • Репозиторий NVIDIA LongLive на GitHub