Вывод
29 апреля 2026 года IBM выпустила серию Granite 4.1, включающую три нерассуждающие модели на 30B, 8B и 3B параметров, все под лицензией Apache 2.0. В индексе интеллекта Artificial Analysis Granite 4.1 30B набирает 15 баллов, 8B — 12, 3B — 9, что соответствует уровню открытых моделей Qwen3 и Gemma3.
Главное преимущество — эффективность токенов: по сравнению с аналогичными нерассуждающими моделями Granite 4.1 выполняет те же задачи с меньшим количеством токенов. Версия 8B демонстрирует наилучший баланс между эффективностью токенов и интеллектом.
Измерения тестирования
Бенчмаркинг индекса интеллекта
| Модель | Параметры | Балл Artificial Analysis |
|---|---|---|
| Granite 4.1-30B | 30B | 15 |
| Granite 4.1-8B | 8B | 12 |
| Granite 4.1-3B | 3B | 9 |
Результат 30B версии в 15 баллов достигает уровня主流的 средних открытых моделей. Результат 8B версии в 12 баллов помещает её в первый эшелон среди малых моделей.
Эффективность токенов
Серия Granite 4.1 демонстрирует выдающуюся эффективность токенов. По сравнению с нерассуждающими моделями того же класса она использует меньше токенов для выполнения тех же задач. Это означает более низкие затраты на инференс и более быстрые ответы при реальном развёртывании.
Версия 8B достигает оптимального баланса в соотношении «эффективность токенов vs интеллект», что делает её идеальной для сценариев, где нужно балансировать производительность и стоимость.
Возможности кодирования и поддержка FIM
Granite 4.1 поддерживает FIM (Fill-In-the-Middle) — ключевую возможность для дополнения кода. Разработчики могут вставлять дополнения в середину существующего кода, что подходит для интеграции с IDE и инструментов помощи в кодировании.
Лицензия Apache 2.0 означает, что предприятия могут использовать модели коммерчески бесплатно, без worries о лицензионных рисках. Это особенно важно для корпоративных сценариев, требующих локального развёртывания и высокой конфиденциальности данных.
Удобство развёртывания
Версия 3B подходит для периферийных устройств и сценариев с низким энергопотреблением, версия 8B — для развёртывания на одном GPU, а версия 30B — для производственных сред, требующих более высокого интеллекта. Три версии покрывают полный спектр развёртывания от периферии до дата-центра.
Weights & Biases Inference обеспечивает поддержку с первого дня (Day-0), позволяя напрямую тестировать инференс и наблюдать за ним на платформе W&B.
Рекомендации по выбору
- Корпоративное коммерческое/частное развёртывание: Вся серия Granite 4.1 под Apache 2.0, без коммерческих ограничений — первый выбор для предприятий экосистемы IBM
- Дополнение кода/интеграция с IDE: Версия 8B + поддержка FIM, лучший баланс эффективности и интеллекта
- Периферийные/ресурсоограниченные сценарии: Версия 3B для сред с ограниченными ресурсами, 9 баллов интеллекта покрывают базовые задачи
- Ищущие соотношение цена/качество: Преимущество эффективности токенов у версии 8B даёт больший результат при той же стоимости