Почему оценка Baseten взлетела до $13 млрд: стоит ли самостоятельно настраивать стек инференса открытых моделей?

Сразу к выводу: если вам нужно всего несколько миллионов токенов в день, проще использовать закрытые API; если же вы уже перешли к масштабному онлайн-инференсу, только тогда стоит всерьёз считать экономику стека открытых моделей.

18 июня TechCrunch со ссылкой на The Wall Street Journal сообщил, что Baseten близка к завершению раунда на $1,5 млрд с оценкой от $11 до $13 млрд. Статья WSJ помещает это в более широкий контекст: компании хотят использовать более дешёвые и модифицируемые открытые модели, но им не хватает уровня инференса для кросс-облачного развёртывания, оптимизации и запуска.

Это не простая история про «open source всегда дешевле». Открытые модели не требуют лицензионных отчислений, но вы платите за инженерные работы, утилизацию GPU, холодный старт, мониторинг, поэтапный запуск, маршрутизацию моделей и восстановление после сбоев. Ценность таких компаний, как Baseten, заключается именно в превращении этой «грязной работы» в готовый продукт.

Мои рекомендации по выбору: если у вас высокие требования к соответствию нормам, нужна глубокая кастомизация, большой объём запросов и есть ресурсы на поддержку платформенной команды — стоит оценить стек инференса открытых моделей. Для небольших команд, быстро меняющихся требований и приоритета качества — начните с закрытых API вроде OpenAI, Anthropic или Google. Не стоит экономить на цене за токен, покупая взамен сложность эксплуатации.

Рейтинги вроде Artificial Analysis подтверждают ещё один факт: рынок инференса теперь соревнуется не только в качестве моделей, но и в скорости и цене провайдеров. В будущем многие продукты перейдут на гибридную маршрутизацию.

Ажиотаж вокруг финансирования Baseten по сути отражает то, как рынок оценивает «уровень запуска открытых моделей».

Основные источники:

Похожие материалы

Как выбрать между A2UI, MCP Apps и AG-UI: не запутайтесь в названиях протоколов Agent UI

Codex Sites против Claude Code Artifacts: один стремится хостить приложения, другой — хостить объяснения

Claude Fable 5 против GPT-5.5: в написании кода не стоит смотреть только на максимальный балл