Согласование моделей генерации видео с помощью обучения с подкреплением долгое время оставалось сложной технической задачей.
Для текстовых моделей выравнивание по человеческим предпочтениям с помощью RLHF/GRPO уже стало зрелой практикой: модель генерирует несколько ответов, модель человеческих предпочтений их оценивает, а затем сигнал вознаграждения используется для оптимизации. Однако с генерацией видео всё иначе: вычислительная стоимость создания одного кадра видео в десятки тысяч раз выше, чем генерации одного токена, поэтому невозможно применять массовую выборку и оценку, как в случае с текстом.
Кроме того, математические модели генерации видео принципиально отличаются. Основные автогрегрессивные генераторы видео построены на архитектуре flow matching (сопоставление потоков), основанной на ОДУ (обыкновенных дифференциальных уравнениях), тогда как существующие методы RL в большинстве своём опираются на СДУ (стохастические дифференциальные уравнения) и исследование через шум. Эти два подхода попросту несовместимы.
Именно для решения этой проблемы команда из Цинхуа разработала KVPO.
В чём заключается проблема
Процесс автогрегрессивной генерации видео можно описать так: начиная с первого кадра, модель генерирует последующие кадр за кадром, при этом каждый шаг зависит от информации всех предыдущих кадров. Существующие методы RL при оптимизации стратегии используют добавление шума для «исследования» различных путей генерации.
Однако возникает проблема: шумовые возмущения изменяют детали на уровне пикселей — оттенки цвета, толщину текстур, — а не контент на семантическом уровне — сюжетную линию, траекторию движения объектов. Вы хотите, чтобы модель научилась «создавать более сюжетные видео», но в процессе исследования она лишь понимает, что «этот пиксель можно сделать чуть ярче».
Это всё равно что учить человека писать, разрешив ему менять только знаки препинания.
Ключевая инновация KVPO: поиск семантических изменений в KV Cache
Подход KVPO отличается смелостью: источник исследования переносится со случайного шума на исторический KV Cache.
В автогрегрессивной генерации KV Cache хранит пары ключ-значение для всех предыдущих токенов, по сути являясь «памятью» модели. Применяя случайную маршрутизацию к историческим записям в KV Cache, KVPO создаёт семантически различные ветви генерации: разные комбинации исторической памяти естественным образом приводят к разным сюжетным поворотам и визуальному содержанию.
Что ещё важнее, такое исследование всегда остаётся в пределах многообразия данных (data manifold) — сгенерированный контент не выдаёт абсурдных результатов OOD (out-of-distribution), поскольку все изменения происходят внутри пространства представлений, уже изученного моделью.
Стратегическое моделирование, нативное для ОДУ
Решив проблему исследования, KVPO также переработал подход к моделированию стратегии.
Традиционные стратегии RL в контексте генерации видео выступают «чужеродным элементом» — суррогатные политики на основе СДУ не соответствуют динамическим свойствам ОДУ. KVPO предлагает суррогатную политику поля скоростей, основанную на Trajectory Velocity Energy (TVE):
- количественная оценка «правдоподобия» различных ветвей генерации в пространстве скоростей flow matching;
- построение контрастной цели, взвешенной по вознаграждению, полностью согласованной с нативной формулировкой ОДУ;
- отсутствие необходимости в каких-либо аппроксимациях СДУ или суррогатных преобразованиях.
Такая ODE-native архитектура обеспечивает естественное согласование сигналов RL с математическим фундаментом генерации видео, устраняя теоретические несоответствия, присущие предыдущим методам.
Результаты экспериментов
Тестирование проводилось на нескольких дистиллированных автогрегрессивных генераторах видео:
- Улучшение визуального качества: повышение детализации, цветопередачи и композиции кадров;
- Улучшение качества движения: большая плавность и естественность перемещения объектов;
- Повышение соответствия тексту/изображению: более точное соответствие сгенерированного контента текстовому запросу (prompt);
- Положительный эффект наблюдается как для коротких видео по одному запросу, так и для длинных видео по нескольким запросам.
Более глубокий смысл
Технический подход KVPO указывает на важную тенденцию: методы выравнивания для генерации видео должны разрабатываться специально для видео, а не просто копировать методологию текстовых моделей. Видео обладает временным, пространственным и семантическо-нарративным измерениями, каждое из которых требует собственной стратегии исследования и целей выравнивания.
Это также означает, что RL-выравнивание в области генерации видео находится лишь в начале пути. KVPO задаёт работоспособную отправную точку, но до создания видео, по-настоящему удовлетворяющих человека, ещё предстоит пройти долгий путь.
Основные источники:
- KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration
- https://richard-zhang-ai.github.io/KVPO-Project/
- https://github.com/Richard-Zhang-AI/KVPO