Новая статья Tencent Hunyuan: Сколько эффективности на самом деле высвобождает On-Policy Distillation?

Дистилляция знаний (Knowledge Distillation) уже давно не новость. Если говорить просто, это процесс, при котором большая модель (учитель) обучает маленькую модель (ученик), позволяя последней при сохранении компактного размера максимально приблизиться к возможностям большой модели.

Однако в этой новой статье команда Tencent Hunyuan задает вопрос, который ранее не изучался системно: сколько «заблокированной» эффективности модели на самом деле высвобождает дистилляция в условиях On-Policy?

Что такое On-Policy Distillation?

Для начала разберемся с контекстом.

В обучении с подкреплением (Reinforcement Learning) подход On-Policy означает, что агент использует для своего обновления только данные, сгенерированные текущей стратегией. В то же время Off-Policy позволяет использовать данные, полученные при помощи любых прошлых стратегий.

Ключевая идея On-Policy Distillation заключается в следующем: обучение методом дистилляции проводится на данных, сгенерированных самой моделью, а не на фиксированном датасете.

Звучит интуитивно понятно: если модель учится на данных из «своей зоны компетенции», это должно быть эффективнее. Но возникает вопрос: насколько именно? При каких условиях? Какова разница в эффективности между различными стратегиями?

Ранее на эти вопросы никто не давал системного ответа.

Ключевые выводы статьи

Команда Tencent Hunyuan провела масштабные эксперименты, и вот несколько выводов, которые заслуживают особого внимания:

Во-первых, преимущество в эффективности On-Policy дистилляции не является равномерным. На одних задачах On-Policy дистилляция дает значительный прирост эффективности по сравнению с Off-Policy дистилляцией; на других разница минимальна. Это указывает на то, что выбор стратегии дистилляции необходимо адаптировать под специфику задачи — универсального решения «на все случаи жизни» не существует.

Во-вторых, ключ к «высвобождению эффективности» кроется в совпадении распределений данных. Преимущество On-Policy дистилляции максимально, когда распределение данных для дистилляции сильно совпадает с распределением данных, с которыми модель сталкивается в реальной эксплуатации. Это интуитивно понятно: чем больше содержание тренировок совпадает с содержанием экзамена, тем лучше результат.

В-третьих, итеративная дистилляция работает лучше, чем однократная. Авторы обнаружили, что постепенная дистилляция в несколько итераций (где на каждом шаге обновленная модель генерирует новые данные для дистилляции) позволяет непрерывно раскрывать потенциал модели. Этот процесс напоминает «самосовершенствование» — каждый этап лучше предыдущего.

Значение для индустрии

Ценность этой работы заключается не только в академических открытиях, но и в ее практической пользе для инженерных задач.

Оптимизация затрат. Стоимость обучения больших моделей постоянно растет, поэтому любой метод, повышающий эффективность обучения, имеет прямую экономическую ценность. Если On-Policy дистилляция позволяет сократить количество шагов обучения при сохранении той же производительности, то сэкономленные вычислительные ресурсы и время становятся реальным преимуществом.

Раскрытие потенциала малых моделей. Во многих сценариях мы не можем использовать самые крупные модели (из-за затрат, задержек или ограничений развертывания). Дистилляция — ключевая технология, позволяющая малым моделям приблизиться к возможностям больших. Понимание границ эффективности On-Policy дистилляции поможет нам точнее находить баланс между «размером модели» и «производительностью».

Оптимизация процесса RLHF. Идея On-Policy дистилляции схожа с обучением PPO в RLHF: в обоих случаях модель обновляется на данных, сгенерированных текущей стратегией. Выводы статьи могут послужить основой для оптимизации конвейера RLHF.

Ограничения и риски

Разумеется, к результатам этой статьи стоит подходить взвешенно:

Ограниченность экспериментальной базы. Выводы статьи основаны на конкретных архитектурах моделей и постановках задач. При смене модели или предметной области результаты могут оказаться не полностью применимыми.

Баланс вычислительных затрат. Хотя On-Policy дистилляция повышает эффективность, каждый этап требует генерации данных самой моделью, что также несет вычислительные издержки. В реальных применениях необходимо комплексно оценивать соотношение «выгоды от дистилляции» и «затрат на генерацию».

Риск переобучения. Многократное обучение на данных, сгенерированных самой моделью, может привести к чрезмерной адаптации к конкретному распределению данных и снижению способности к обобщению. В статье упоминаются стратегии смягчения этого риска, однако при реальном развертывании их все равно необходимо тщательно проверять.

Заключение

Главный вклад статьи команды Tencent Hunyuan, возможно, заключается не в каком-то конкретном техническом показателе, а в том, что она вывела на первый план ранее игнорируемую проблему.

В последние годы все гнались за «более крупными моделями, большими объемами данных и более мощными вычислительными ресурсами». Однако эта статья напоминает нам: эффективность не менее важна. Если вы можете достичь того же результата с меньшими затратами ресурсов, это уже само по себе является конкурентным преимуществом.

В 2026 году, когда стоимость вычислительных ресурсов продолжает расти, а индустрия все больше фокусируется на соотношении затрат и результатов, подобные систематические исследования «эффективности» являются ярким признаком взросления отрасли.

Что такое On-Policy Distillation?

Ключевые выводы статьи

Значение для индустрии

Ограничения и риски

Заключение

Похожие материалы

CiteVQA: бенчмарк для интеллектуальной обработки документов от OpenDataLab, делающий каждую ссылку ИИ проверяемой

CLI-Anything набирает 1000 звёзд за неделю: как сделать всё ПО «Agent-Native» — новый подход команды из Гонконгского университета

MMSkills: Шанхайский университет Цзяотун разделил возможности визуального агента на «набор навыков» — новая парадигма мультимодальных ИИ-агентов