Сразу к выводу: если вам нужно всего несколько миллионов токенов в день, проще использовать закрытые API; если же вы уже перешли к масштабному онлайн-инференсу, только тогда стоит всерьёз считать экономику стека открытых моделей.
18 июня TechCrunch со ссылкой на The Wall Street Journal сообщил, что Baseten близка к завершению раунда на $1,5 млрд с оценкой от $11 до $13 млрд. Статья WSJ помещает это в более широкий контекст: компании хотят использовать более дешёвые и модифицируемые открытые модели, но им не хватает уровня инференса для кросс-облачного развёртывания, оптимизации и запуска.
Это не простая история про «open source всегда дешевле». Открытые модели не требуют лицензионных отчислений, но вы платите за инженерные работы, утилизацию GPU, холодный старт, мониторинг, поэтапный запуск, маршрутизацию моделей и восстановление после сбоев. Ценность таких компаний, как Baseten, заключается именно в превращении этой «грязной работы» в готовый продукт.
Мои рекомендации по выбору: если у вас высокие требования к соответствию нормам, нужна глубокая кастомизация, большой объём запросов и есть ресурсы на поддержку платформенной команды — стоит оценить стек инференса открытых моделей. Для небольших команд, быстро меняющихся требований и приоритета качества — начните с закрытых API вроде OpenAI, Anthropic или Google. Не стоит экономить на цене за токен, покупая взамен сложность эксплуатации.
Рейтинги вроде Artificial Analysis подтверждают ещё один факт: рынок инференса теперь соревнуется не только в качестве моделей, но и в скорости и цене провайдеров. В будущем многие продукты перейдут на гибридную маршрутизацию.
Ажиотаж вокруг финансирования Baseten по сути отражает то, как рынок оценивает «уровень запуска открытых моделей».
Основные источники: