C
ChaoBro

Исследование Cast AI 23 000 кластеров: средняя загрузка GPU на предприятиях всего 5%, 95% вычислений простаивает

Исследование Cast AI 23 000 кластеров: средняя загрузка GPU на предприятиях всего 5%, 95% вычислений простаивает

Основной вывод

Анализ Cast AI примерно 23 000 кластеров Kubernetes раскрывает шокирующий факт: средняя загрузка GPU на предприятиях составляет всего 5%. Другими словами, 95% вычислительных мощностей GPU простаивают. При этом загрузка CPU составляет 8%, а памяти — 20%.

Это не аномалия маленькой выборки — это систематические потери по всей индустрии.

Обзор данных

Сравнение использования ресурсов

Тип ресурсаСредняя загрузкаПростаиваетУровень потерь
GPU5%95%Крайний
CPU8%92%Крайний
Память20%80%Значительный

Почему это происходит?

Выделение ресурсов из страха: Предприятия боятся нехватки GPU, боятся проблем с производительностью и боятся жалоб от бизнес-команд, поэтому massively избыточно выделяют ресурсы. Этот подход похож на паническую скупку туалетной бумаги во время пандемии — не из-за потребности, а из-за «страха остаться без ресурсов».

Разбор ключевых находок

1. Что означает загрузка GPU 5%?

Предположим, предприятие покупает 100 GPU H100 по цене примерно $30-40/час. При загрузке 5%:

  • Эффективные вычисления: эквивалентно 5 GPU H100, работающим на полную мощность
  • Потерянные вычисления: эквивалентно 95 GPU H100 в режиме простоя
  • Годовые потери: примерно $2,5-3,2 млн

Это не включает сопутствующие расходы на CPU, память, сеть, охлаждение и другую инфраструктуру.

2. Новый дисбаланс CPU-GPU

Ещё одна упускаемая из виду тенденция: производительность GPU растёт значительно быстрее, чем CPU. Это означает, что вспомогательные ресурсы CPU на единицу вычислений ИИ отстают. Лаборатории напрямую конкурируют с гиперскейлерами за мощности x86 CPU, что ещё больше повышает общие затраты.

3. Одновременный простой нескольких ресурсов

GPU, CPU и память одновременно имеют низкую загрузку, что указывает на то, что проблема заключается не в ошибке конфигурации одного ресурса, а в систематической неудаче общей методологии планирования ресурсов.

Почему это важно

Прямое влияние на предприятия

  1. Чёрная дыра расходов: 95% многомиллионных бюджетов на GPU — чистые потери
  2. Снижение конкурентоспособности: При одинаковом бюджете эффективные предприятия могут получить в 20 раз больше фактических вычислений, чем неэффективные
  3. Экологическое воздействие: Простаивающие GPU всё ещё потребляют электричество и создают углеродный след

Сигналы на уровне индустрии

СигналЗначение
Дефицит GPU — иллюзияРеальный спрос значительно ниже поверхностного
Ценовая власть облачных провайдеров на GPU может ослабнутьКогда предприятия осознают потери, стратегии закупок изменятся
Взрывной рост рынка инструментов оптимизации ресурсовАвтомасштабирование, планирование смешанных рабочих нагрузок, разделение GPU во времени станут необходимыми

Рекомендации к действию

Для CTO и технических руководителей предприятий

  1. Немедленно проведите аудит загрузки GPU: Используйте Prometheus + NVIDIA DCGM для мониторинга фактического использования GPU
  2. Реализуйте разделение GPU во времени (MIG): Разделяйте отдельные GPU на несколько экземпляров для повышения параллельной загрузки
  3. Внедрите стратегии автомасштабирования: Динамически регулируйте распределение GPU на основе фактической нагрузки, а не статического выделения
  4. Установите ответственность за расходы: Включите загрузку GPU в KPI команд

Для инженеров ИИ

  1. Пакетный вывод вместо вывода в реальном времени: Объединяйте несколько запросов вывода для повышения пропускной способности GPU
  2. Квантование и дистилляция моделей: Используйте меньшие модели для удовлетворения бизнес-потребностей, снижая зависимость от GPU
  3. Используйте фреймворки оптимизации вывода: vLLM, TensorRT-LLM и другие фреймворки могут значительно повысить загрузку GPU

Для инвесторов и аналитиков

  1. Обратите внимание на сектор оптимизации ресурсов: Платформы оптимизации GPU, такие как Cast AI, Run:ai, Volcon AI, демонстрируют свою ценность
  2. Остерегайтесь пузырей нарратива о вычислениях: Объём закупок GPU не равен способности ИИ; загрузка — ключевой показатель
  3. Найдите предприятия с «разрывом эффективности в 20 раз»: Компании, способные обеспечить в 20 раз большую эффективность вычислений при том же бюджете, получат огромное конкурентное преимущество

Оценка ландшафта

Поворотный момент в расточительстве вычислений, возможно, приближается.

Когда первые предприятия достигнут «выполнения тех же задач ИИ в 20 раз дешевле» за счёт оптимизации, индустрии придётся столкнуться с этой проблемой. Это не вопрос технологического обновления — это фундаментальный сдвиг в методологии управления.

В то же время это открывает огромную возможность для стартапов ИИ: тот, кто сможет повысить загрузку GPU у клиентов с 5% до 50%, получит вход на триллионный рынок вычислений.