C
ChaoBro

Demis Hassabis на YC: AGI к ~2030, но Предобучение + RLHF Далекo От Достаточного

Demis Hassabis на YC: AGI к ~2030, но Предобучение + RLHF Далекo От Достаточного

Ключевое Суждение

Основатель и CEO DeepMind Demis Hassabis дал свой самый конкретный публичный прогноз временной шкалы AGI на сегодняшний день в выступлении на Y Combinator: около 2030 года.

Но одновременно он вынес более критичное суждение: парадигма «масштабного предобучения + RLHF», на которую опирается текущая индустрия фронтальных моделей, далеко недостаточна для достижения AGI. Необходимо добавить две ключевые способности — непрерывное обучение и долгосрочное рассуждение.

Это не типичный «прогноз от большого босса AI». Hassabis — создатель AlphaGo и AlphaFold, соучредитель DeepMind. Его суждение об AGI основано на реальном опыте построения самых передовых AI-систем в мире.

Три Ключевых Аргумента

1. Предобучение + RLHF — Лишь Начальная Точка

Все текущие фронтальные модели (GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro) построены на одной парадигме:

Масштабное предобучение → Инструкционная настройка → Выравнивание RLHF → Продукт

Суждение Hassabis ясно: у этой парадигмы есть потолок. Предобучение — «одноразовое» — знания модели замораживаются после завершения обучения. RLHF может оптимизировать только в пределах распределения обучающих данных, он не может дать модели способности, которых она никогда не видела во время обучения.

Аналогия: Это как дать студенту учебник, заставить его запомнить все пункты знаний, а затем использовать экзаменационные приемы (RLHF), чтобы он выступал лучше. Но настоящий интеллект — это не «запомненное».

2. Непрерывное Обучение — Необходимый Путь

Ядро непрерывного обучения: модель может продолжать изучать новые знания и навыки после развёртывания, без необходимости переобучения с нуля.

СпособностьТекущие МоделиНужно для AGI
Обновление знанийТребует переобучения или RAGОбучение новой информации в реальном времени
Приобретение навыковТребует тонкой настройки или промпт-инженерииАвтономное освоение новых задач
Коррекция ошибокТребует аннотированных человеком данных для переобученияСамоулучшение из взаимодействий
Накопление опытаКаждая беседа — «новая»Накопление опыта и инсайтов через сессии

Hassabis намекнул, что DeepMind уже инвестировал значительные ресурсы в направлении непрерывного обучения. Успех AlphaFold — по сути случай «непрерывного обучения» — непрерывное обучение на данных о структуре белков, непрерывное улучшение точности предсказаний.

3. Долгосрочное Рассуждение — Это Бутылочное Горлышко

Текущие модели превосходны в «краткосрочном рассуждении» — ответить на вопрос, сгенерировать код, резюмировать статью. Но на задачах, требующих многошагового рассуждения, интеграции знаний из разных доменов и долгосрочного планирования, производительность значительно падает.

Hassabis привёл пример: поручить AI-системе спланировать научный исследовательский проект с 0 до 1 — выдвинуть гипотезы, спроектировать эксперименты, проанализировать результаты, итерировать гипотезы. Это требует:

  • Кросс-шаговой зависимости: Решения каждого шага зависят от результатов предыдущих шагов
  • Управление неопределённостью: Эксперименты могут провалиться, гипотезы могут быть фальсифицированы
  • Распределение ресурсов: Принятие оптимальных решений при ограниченных времени и вычислительных ресурсах
  • Самокоррекция: Корректировка направления после обнаружения ошибок, а не продолжение движения по неверному пути

Эти способности — именно то, чего текущим моделям больше всего не хватает.

Сравнение с Другими Прогнозами AGI

Лицо/ОрганизацияПрогноз AGIКлючевой Путь
Demis Hassabis (DeepMind)Около 2030Непрерывное обучение + долгосрочное рассуждение
Dario Amodei (Anthropic)2026-2027Масштабирование + выравнивание
Sam Altman (OpenAI)Конкретного времени не названоМасштабирование + Агент
Yann LeCun (Meta)Минимум 10+ летНовая архитектура (не LLM)

Прогноз 2030 года Hassabis находится между оптимизмом Amodei и пессимизмом LeCun, но он дал более конкретный список «отсутствующих способностей» — не просто говоря «нужно больше данных/вычислений», а явно указывая, какие именно прорывы в способностях нужны.

Значение для Индустрии

Для Компаний-Разработчиков Моделей

Дивиденды Scaling Law (увеличения размера модели) маргинально уменьшаются. Следующий прорыв не в «большем», а в «лучшем умении учиться».

DeepMind уже экспериментировал с некоторыми подходами непрерывного обучения в серии Gemini. Если суждение Hassabis верно, то следующий «поколенческий» прорыв моделей произойдёт от прорывов в способности непрерывного обучения, а не от роста параметров.

Для Разработчиков

Если вы создаёте AI-приложения, учтите этот тренд: будущие модели будут лучше «учиться из использования». Это означает:

  • Данные взаимодействий, которые накапливает ваше приложение, станут ценными ресурсами для обучения следующего поколения моделей
  • Агенты, способные непрерывно учиться и само-улучшаться, станут мейнстримом
  • AI-приложения «одноразового развёртывания» будут заменены «непрерывно развивающимися» AI-приложениями

Для Инвесторов

Выступление Hassabis намекает на направление инвестиций: инфраструктура непрерывного обучения. Включая:

  • Платформы Online Learning
  • Инструменты непрерывной тонкой настройки моделей
  • Бенчмарки и системы оценки долгосрочного рассуждения

Итог Одним Предложением

AGI — это не «большие модели» — это «системы, которые учатся лучше». Прогноз 2030 года и тезис о непрерывном обучении Hassabis указывают AI-индустрии на направление, более заслуживающее внимания, чем Scaling Law.