State of AI май 2026: Китайские открытые модели сравнялись с GPT-5.5/Claude на SWE-Bench Pro при стоимости в 1/3

Основной вывод

Свежий ежемесячный отчёт State of AI (май 2026) представил данные, от которых инженеры Кремниевой долины должны сесть прямо: DeepSeek V4 и Kimi K2.6 сравнялись с GPT-5.5 и Claude Opus 4.7 на SWE-Bench Pro при стоимости API примерно в три раза ниже за миллион токенов.

Это уже не история про «соотношение цены и качества» — это сигнал «равная производительность, сокрушительная цена».

Сравнение данных

Модель	SWE-Bench Pro	Входная цена ($/M токенов)	Выходная цена ($/M токенов)	Архитектура
GPT-5.5	67.2%	$10.00	$40.00	Dense MoE
Claude Opus 4.7	66.8%	$15.00	$75.00	Dense MoE
DeepSeek V4	67.0%	$2.50	$8.00	MoE (активных 32B)
Kimi K2.6	66.5%	$3.00	$10.00	MoE (активных 32B, всего 1T)

Ключевые детали:

SWE-Bench Pro — на сегодня самый строгий бенчмарк кодирования, охватывающий реальные задачи исправления ошибок в разных языках и репозиториях
DeepSeek V4 и Kimi K2.6 используют архитектуру MoE (смесь экспертов), активируя лишь ~32 миллиарда параметров на токен при инференсе — значительно меньше общего числа параметров
Данные по ценам основаны на официальных тарифах API (май 2026)

Почему этот сигнал важнее баллов бенчмарков

Последние два года разговоры в мире AI вращались вокруг «кто умнее». Этот отчёт указывает на более фундаментальную тенденцию: интеллект превращается из редкого ресурса в инфраструктуру.

Несколько перекрёстно подтверждённых сигналов:

Способности передовых моделей к кибератакам удваиваются каждые 4 месяца (данные UK AISI) — скорость развития моделей значительно опережает корректировку цен
Китайские лаборатории лидируют и на SWE-Bench Multilingual — Kimi K2.6 превосходит Claude Sonnet 4.6 в многоязычных задачах кодирования
Модели с открытыми весами сокращают отставание от закрытых — веса Kimi K2.6 опубликованы, веса DeepSeek V4 также открыты

Оценка ландшафта

Этот тренд имеет разное значение для разных ролей:

Роль	Сигнал	Действие
Независимый разработчик	Ценовой барьер Coding Agent снизился до $5/мес	Развернуть Ollama + Hermes Agent на VPS, запускать задачи кодирования локально
Корпоративный CTO	Соотношение производительности и стоимости китайских открытых моделей больше нельзя игнорировать	Внедрить DeepSeek/Kimi как резерв для GPT-5.5 во внутренних инструментах
Вендоры моделей	Окно премиальных цен закрытых моделей сужается	Необходимо строить новые защитные линии в рабочих процессах Agent, мультимодальности, корпоративной безопасности

Факторы неопределённости

SWE-Bench Pro строг, но это всё ещё бенчмарк. Производительность в реальных проектах может варьироваться в зависимости от сложности кодовой базы, требований к длине контекста и других факторов
Экосистема инструментов китайских моделей (интеграция с IDE, MCP-серверы, плагины) всё ещё догоняет
Экспортный контроль США в отношении AI-технологий может повлиять на глобальную доступность этих моделей

Итог в одном предложении: Когда DeepSeek V4 и Kimi K2.6 сравниваются с GPT-5.5 по способностям кодирования при трети цены, вопрос «какую модель выбрать» смещается от «кто умнее» к «кто экономичнее».

Основной вывод

Сравнение данных

Почему этот сигнал важнее баллов бенчмарков

Оценка ландшафта

Факторы неопределённости

Похожие материалы

17 дней, 4 модели: гонка вооружений китайского ИИ с открытым кодом и перекройка ландшафта производительности

Hermes Agent vs OpenClaw: Как выбрать правильный фреймворк AI-агентов в 2026 году?

Загрузки Codex碾压 Claude Code: экосистемическая битва OpenAI с функцией «Migrate to Codex»