Основной вывод
Свежий ежемесячный отчёт State of AI (май 2026) представил данные, от которых инженеры Кремниевой долины должны сесть прямо: DeepSeek V4 и Kimi K2.6 сравнялись с GPT-5.5 и Claude Opus 4.7 на SWE-Bench Pro при стоимости API примерно в три раза ниже за миллион токенов.
Это уже не история про «соотношение цены и качества» — это сигнал «равная производительность, сокрушительная цена».
Сравнение данных
| Модель | SWE-Bench Pro | Входная цена ($/M токенов) | Выходная цена ($/M токенов) | Архитектура |
|---|---|---|---|---|
| GPT-5.5 | 67.2% | $10.00 | $40.00 | Dense MoE |
| Claude Opus 4.7 | 66.8% | $15.00 | $75.00 | Dense MoE |
| DeepSeek V4 | 67.0% | $2.50 | $8.00 | MoE (активных 32B) |
| Kimi K2.6 | 66.5% | $3.00 | $10.00 | MoE (активных 32B, всего 1T) |
Ключевые детали:
- SWE-Bench Pro — на сегодня самый строгий бенчмарк кодирования, охватывающий реальные задачи исправления ошибок в разных языках и репозиториях
- DeepSeek V4 и Kimi K2.6 используют архитектуру MoE (смесь экспертов), активируя лишь ~32 миллиарда параметров на токен при инференсе — значительно меньше общего числа параметров
- Данные по ценам основаны на официальных тарифах API (май 2026)
Почему этот сигнал важнее баллов бенчмарков
Последние два года разговоры в мире AI вращались вокруг «кто умнее». Этот отчёт указывает на более фундаментальную тенденцию: интеллект превращается из редкого ресурса в инфраструктуру.
Несколько перекрёстно подтверждённых сигналов:
- Способности передовых моделей к кибератакам удваиваются каждые 4 месяца (данные UK AISI) — скорость развития моделей значительно опережает корректировку цен
- Китайские лаборатории лидируют и на SWE-Bench Multilingual — Kimi K2.6 превосходит Claude Sonnet 4.6 в многоязычных задачах кодирования
- Модели с открытыми весами сокращают отставание от закрытых — веса Kimi K2.6 опубликованы, веса DeepSeek V4 также открыты
Оценка ландшафта
Этот тренд имеет разное значение для разных ролей:
| Роль | Сигнал | Действие |
|---|---|---|
| Независимый разработчик | Ценовой барьер Coding Agent снизился до $5/мес | Развернуть Ollama + Hermes Agent на VPS, запускать задачи кодирования локально |
| Корпоративный CTO | Соотношение производительности и стоимости китайских открытых моделей больше нельзя игнорировать | Внедрить DeepSeek/Kimi как резерв для GPT-5.5 во внутренних инструментах |
| Вендоры моделей | Окно премиальных цен закрытых моделей сужается | Необходимо строить новые защитные линии в рабочих процессах Agent, мультимодальности, корпоративной безопасности |
Факторы неопределённости
- SWE-Bench Pro строг, но это всё ещё бенчмарк. Производительность в реальных проектах может варьироваться в зависимости от сложности кодовой базы, требований к длине контекста и других факторов
- Экосистема инструментов китайских моделей (интеграция с IDE, MCP-серверы, плагины) всё ещё догоняет
- Экспортный контроль США в отношении AI-технологий может повлиять на глобальную доступность этих моделей
Итог в одном предложении: Когда DeepSeek V4 и Kimi K2.6 сравниваются с GPT-5.5 по способностям кодирования при трети цены, вопрос «какую модель выбрать» смещается от «кто умнее» к «кто экономичнее».