Что Произошло
5 мая 2026 года генеральный директор NVIDIA Дженсен Хуанг сделал важное заявление в интервью CNBC: «От генеративного AI к Agentic AI количество необходимых вычислений выросло на 1000%.»
Это заявление прозвучало вскоре после публикации отчёта NVIDIA за первый квартал 2026 года. Отчёт показал, что квартальная чистая прибыль NVIDIA достигла $42,3 млрд, а оценки на полный год приближаются к $200 млрд — траектория роста с 2021 года, возможно, является самой крутой в истории полупроводниковой отрасли.
Тем временем техническая команда NVIDIA раскрыла конкретные данные производительности платформы Vera Rubin для Agent-нагрузок в X: 400+ токенов/сек на пользователя, достигнутые благодаря экстремальному со-дизайну для удовлетворения экстремальных потребностей в потреблении токенов, длине контекста и задержке в Agent-сценариях.
Откуда Берётся Рост на 1000%
Заявление Хуанга о 1000% не беспочвенно. Парадигмальный сдвиг от генеративного AI к Agentic AI привносит структурные изменения в потребность в вычислениях:
| Измерение | Генеративный AI | Agentic AI | Кратность Изменения |
|---|---|---|---|
| Потребление токенов за взаимодействие | Один вопрос-ответ ~1K-5K токенов | Многошаговое рассуждение Agent ~100K-1M токенов | 20-200x |
| Длина сессии | Одна сессия <30 ходов | Agent может работать непрерывно часами или днями | 10-100x |
| Контекстное окно | 8K-128K токенов | 1M+ токенов (сохранение состояния Agent) | 8-125x |
| Накладные расходы вызова инструментов | Отсутствуют | Каждый вызов инструмента требует дополнительного вывода + парсинга | Новое |
| Множественная координация Agent | Не применяется | Несколько Agent рассуждают параллельно, общаются | Новое |
Когда Agentам необходимо выполнять циклы «думать-действовать-наблюдать-снова думать», потребление токенов для одной задачи может легко превысить сотни раз по сравнению с традиционной сессией генеративного AI. Это математическая основа роста на 1000%.
Vera Rubin: Вычислительная Платформа, Разработанная для Agent
Данные производительности платформы Vera Rubin, раскрытые NVIDIA, раскрывают инженерный подход к этой задаче:
- 400+ токенов/сек/пользователь: Этот показатель ориентирован на пользовательский опыт в Agent-сценариях, а не на традиционную пакетную пропускную способность
- Экстремальный со-дизайн: Полноцепочечная оптимизация CPU, GPU, памяти и сети, а не простое складывание GPU
- Разработано для сложных нагрузок: Паттерны вычислений в Agent-сценариях отличаются от традиционного обучения/вывода — больше условных ветвлений, более длительное удержание состояния, более частые вызовы инструментов
Это перекликается с ранее опубликованным аналитическим отчётом UBS: UBS прогнозирует, что к 2030 году Agentic AI увеличит общий адресуемый рынок серверных CPU с $30 млрд до $170 млрд (примерно 5-кратный рост). AI — это больше не только история про GPU.
Цепочка Поставок GPU Остаётся Напряжённой
В тот же день, когда Хуанг выступил с заявлением, другой твит в X раскрыл другую сторону предложения GPU:
«Ни одна Neocloud не могла представить, что сегодня они будут сдавать в аренду H100 по ценам выше, чем 3 года назад.»
Даже имея деньги, трудно купить GPU — передовые лаборатории и Neolabs уже заблокировали большую часть поставок GPU на 2026 год. Это согласуется с данными о капитальных расходах гиперскейлеров в размере $725 млрд в 2026 году (рост на 77% в годовом исчислении):
| Статья Расходов | Сумма (на $1M) | Доля |
|---|---|---|
| GPU и акселераторы | $520K | 52% |
| Сети и оптика | $150K | 15% |
| Инфраструктура дата-центров | $200K | 20% |
| Память и прочее | $130K | 13% |
Более половины инвестиций в AI-инфраструктуру направляется на GPU и акселераторы — это объясняет, почему цены на аренду H100 растут, а не падают.
Оценка Ландшафта
Три сигнала вместе очерчивают следующий акт AI-инфраструктуры:
-
Agentic AI — это не «лучший чат-бот», а фундаментальный сдвиг в паттернах вычислений. Рост на 1000% означает, что существующую инфраструктуру необходимо перепроектировать, а не просто масштабировать.
-
Платформа Vera Rubin знаменует переход NVIDIA от «GPU-компании» к «платформе Agent-вычислений». Вес со-дизайна CPU, памяти и сети растёт.
-
Напряжённость в поставках GPU продолжится. Даже при рекордных капитальных расходах раннее блокирование игроками передового фронта означает, что затраты на приобретение GPU для средних и мелких игроков растут, а не падают.
Рекомендации к Действию
- Инфраструктурные инвесторы: Отслеживайте темпы поставок и уровни adoption платформы NVIDIA Vera Rubin. 400+ токенов/сек/пользователь — ключевой показатель производительности для Agent-сценариев и станет новым бенчмарком для оценки конкурентоспособности AI-инфраструктуры.
- Разработчики AI-приложений: Agent-нагрузки имеют другие паттерны вычислений, чем традиционный вывод — более длинный контекст, больше вызовов инструментов, более частое сохранение промежуточных состояний. Эти факторы необходимо учитывать при проектировании архитектуры.
- Малые и средние предприятия: Напряжённость в поставках GPU означает, что стоимость создания Agent-инфраструктуры внутри компании не снизится в краткосрочной перспективе. Оценка облачных Agent-сервисов (таких как Agent API крупных провайдеров моделей) может быть более рентабельной, чем создание внутри компании.
- Специалисты чиповой отрасли: Роль CPU в Agent-сценариях возвращается. Прогнозируемый UBS 5-кратный рост TAM — не пустые слова — оркестрация Agent, управление состоянием и маршрутизация инструментов — всё это CPU-ёмкие задачи.