Новая статья Google: как языковые модели сами находят более эффективные стратегии рассуждений

За последние два года «масштабирование во время тестирования» (Test-Time Scaling) стало одним из самых популярных направлений в области языковых моделей (LLM). Идея интуитивно понятна: предоставить модели больше времени на рассуждение — многошаговое логическое выстраивание, голосование по нескольким параллельным путям вывода, самокоррекция — и точность результатов возрастёт.

Однако остаётся нерешённой ключевая проблема: сколько именно вычислительного бюджета на рассуждения выделить? Какую стратегию применить? Как комбинировать различные подходы?

Теперь исследовательская группа Google предлагает метауровневое решение: пусть языковая модель сама займётся поиском оптимальных решений.

Статья называется «Языковые модели, улучшающие языковые модели: агентное открытие для масштабирования во время тестирования»

Опубликована в ежедневном обзоре научных работ Hugging Face Daily Papers, набрала 53 голоса «за». Основная идея статьи выражается одной фразой: обучить агента на основе языковой модели так, чтобы он самостоятельно экспериментально искал оптимальные стратегии масштабирования во время тестирования — вместо того чтобы полагаться на ручную разработку таких стратегий исследователями.

Это не новая философская концепция — «пусть ИИ улучшает ИИ» — однако в контексте конкретной задачи масштабирования во время тестирования она имеет ряд практических преимуществ.

В чём проблемы существующих методов масштабирования во время тестирования

Среди наиболее распространённых подходов к масштабированию во время тестирования сегодня выделяются:

Цепочка рассуждений (Chain-of-Thought, CoT): модель последовательно выстраивает логические шаги;
Самосогласованность (Self-Consistency): генерация нескольких независимых цепочек рассуждений с последующим голосованием за наиболее частый ответ;
Лучший из N (Best-of-N): генерация N вариантов ответа и выбор наиболее качественного;
Итеративное уточнение (Iterative Refinement): модель многократно корректирует собственный ответ.

У всех этих методов есть общая слабость: их гиперпараметры требуют ручной настройки. Какова оптимальная длина цепочки рассуждений? Сколько параллельных путей следует генерировать при самосогласованности? Когда следует применять Best-of-N, а когда — итеративное уточнение?

В статье Google отмечается, что выбор оптимальных параметров сильно зависит от конкретной задачи и используемой модели. Универсальной «серебряной пули», применимой ко всем сценариям, не существует. А ручной перебор пространства возможных конфигураций слишком затратен по времени и ресурсам.

Как работает «агентное открытие»

Ключевой элемент статьи — это основанный на агенте каркас поиска:

Определение пространства стратегий: включает различные стратегии рассуждений и их параметрические комбинации;
Эксперименты агента: агент на основе языковой модели автоматически исследует пространство стратегий, оценивая эффективность различных комбинаций;
Обучение с обратной связью: на основе результатов экспериментов агент корректирует направление поиска;
Обобщаемые открытия: выявление паттернов стратегий, применимых не только к одной задаче, но и к целому классу задач.

Ключевой момент заключается в том, что весь этот процесс полностью автоматизирован. Человеку не нужно задавать жёсткие правила вроде «применять CoT при задачах X, а Self-Consistency — при задачах Y»: агент сам выявляет эти закономерности в ходе экспериментов.

Значение этого направления

С точки зрения фундаментальных исследований ценность статьи состоит в предложении концептуального каркаса: вместо того чтобы постоянно изобретать новые стратегии рассуждений вручную, стоит делегировать эту задачу самой модели.

Это напоминает подход AutoML в поиске архитектур нейронных сетей (NAS): задача проектирования архитектуры была переведена с человека на автоматизированную систему. Только теперь объектом оптимизации выступают не параметры сети, а стратегии рассуждений.

Однако пространство поиска для масштабирования во время тестирования значительно сложнее, чем в NAS. Хотя пространство архитектур и велико, оценка каждой кандидатской архитектуры является детерминированной (при фиксированных условиях обучения). Эффективность же стратегий масштабирования во время тестирования носит принципиально стохастический характер: один и тот же подход может давать разные результаты при повторном запуске на одной и той же задаче.

Практические ограничения

Идея статьи весьма перспективна, однако следует учитывать несколько реалистичных ограничений:

Во-первых, высокая стоимость поиска. Даже при автоматизации агентом каждый этап оценки стратегии требует множественных вызовов модели. Если целевая модель обладает большим количеством параметров, совокупные вычислительные затраты становятся значительными.

Во-вторых, неочевидна способность к обобщению. Смогут ли стратегии, выявленные агентом на одном наборе задач, успешно переноситься на ранее не встречавшиеся задачи? Для подтверждения этого необходимы дополнительные эксперименты на более широком спектре бенчмарков.

В-третьих, «интерпретируемость» найденных стратегий. Если агент откроет эффективную комбинацию стратегий, логика которой человеку непонятна, то доверие к такому решению в реальных приложениях будет низким, а его внедрение — затруднённым.

Связь с другими направлениями исследований

Это направление пересекается с рядом актуальных тем:

Режимы «длительного размышления» o1/o3 от OpenAI: подход OpenAI предполагает фиксацию единой, заранее заданной долгой цепочки рассуждений, тогда как Google делает саму стратегию рассуждений подлежащей открытию и адаптации;
RLVR (обучение с подкреплением с верифицируемыми вознаграждениями): RLVR оптимизирует способность к рассуждениям во время обучения, тогда как «агентное открытие» фокусируется на оптимизации стратегий во время тестирования. Эти подходы потенциально дополняют друг друга.

Оценка

Статья предлагает интересную мета-перспективу. Она не представляет новую алгоритмическую технику рассуждений, а предлагает метод поиска таких техник.

Если предложенный каркас окажется жизнеспособным, будущая оптимизация рассуждений в LLM может сместиться от «ручного проектирования исследователями» к модели «автоматизированный поиск + ручная верификация». Однако для этого потребуется существенное повышение эффективности поиска и более надёжные методы проверки обобщающей способности.

На сегодняшний день это перспективное направление, заслуживающее внимания, но пока ещё не готовое к внедрению в промышленную эксплуатацию.

Основные источники:

Hugging Face Daily Papers — 11 мая 2026 г.
Google Research, «Языковые модели, улучшающие языковые модели: агентное открытие для масштабирования во время тестирования»