Сегодня NVIDIA совместно с несколькими исследовательскими институтами представила LongLive-2.0 — статью, которая мгновенно набрала более 1270 голосов «за» на Hugging Face Daily Papers. Название может показаться заурядным, но содержание крайне технически насыщенным: первая система генерации длинных видео, в которой 4-битная точность NVFP4 используется на всех этапах обучения и вывода.
Генерация длинных видео (особенно авторегрессионных многокадровых и интерактивных роликов) всегда упиралась в два ограничения: видеопамять и скорость. Ответ LongLive-2.0 — снижение точности до 4 бит и применение параллелизма по последовательности как на этапе обучения, так и на этапе вывода.
Ключевые инновации: три шага
1. Balanced SP: авторегрессионное обучение с параллелизмом по последовательности
LongLive-2.0 предлагает схему параллелизма по последовательности под названием Balanced SP. Её основная идея заключается в том, что при авторегрессионном обучении временные блоки «чистой истории» и «шумовой цели» попарно размещаются на одном GPU-ранге, что естественным образом формирует маску teacher-forcing. В сочетании с блочным кодированием VAE, учитывающим особенности SP, чем длиннее видео, тем выше доля вычислений GEMM, и тем заметнее эффект ускорения от данного подхода.
Проще говоря: без инициализации через ОДУ и без дистилляции сопоставления распределений (DMD), модель напрямую дообучается из диффузионной в длинную многокадровую авторегрессионную диффузионную модель.
2. Полностековая точность NVFP4
Этап обучения: точность NVFP4 снижает потребление видеопамяти GPU и одновременно ускоряет вычисления GEMM. Этап вывода: на GPU Blackwell включается вывод W4A4 NVFP4, кэш KV также квантуется до NVFP4, а в сочетании с асинхронным потоковым декодированием VAE сквозная пропускная способность возрастает в 1.84 раза.
На GPU, не относящихся к архитектуре Blackwell, команда использует вывод с параллелизмом по последовательности для достижения скорости, сопоставимой с Blackwell. Квантованный кэш KV также позволяет снизить накладные расходы на межпроцессорную коммуникацию при использовании SP.
3. Чистый конвейер обучения
Существующие методы семейства Self-Forcing обычно требуют инициализации через ОДУ и дистилляции DMD, что усложняет процесс и часто приводит к нестабильности. LongLive-2.0 доказывает: высококачественная инфраструктура + высококачественный датасет = чистый и прямой процесс обучения. Всё делается за один шаг, без промежуточных этапов.
Показатели производительности
| Показатель | Значение |
|---|---|
| Ускорение обучения | до 2.15× |
| Ускорение вывода | до 1.84× |
| Частота кадров при выводе | LongLive-2.0-5B достигает 45.7 FPS |
| Генерация в реальном времени | Может быть преобразована в генерацию за 2–4 шага в реальном времени с помощью отдельных весов LoRA |
Почему это важно
Значение LongLive-2.0 выходит за рамки «ещё одной модели для генерации видео». Она доказывает одну важную вещь: точность NVFP4 применима не только для вывода — её можно использовать и при обучении. Это означает, что в будущем обучение больших моделей можно будет проводить при более низкой точности и меньшем потреблении видеопамяти, сохраняя или даже повышая производительность.
Это особенно важно для области генерации видео, поскольку длина последовательностей видеоданных значительно превышает текстовые, а ограничения видеопамяти и вычислительных ресурсов проявляются гораздо острее.
Код, модели и демо уже открыты: github.com/NVlabs/LongLive
Основные источники:
- arXiv:2605.18739 — статья LongLive-2.0
- Репозиторий NVIDIA LongLive на GitHub