C
ChaoBro

State of AI май 2026: Китайские открытые модели сравнялись с GPT-5.5/Claude на SWE-Bench Pro при стоимости в 1/3

State of AI май 2026: Китайские открытые модели сравнялись с GPT-5.5/Claude на SWE-Bench Pro при стоимости в 1/3

Основной вывод

Свежий ежемесячный отчёт State of AI (май 2026) представил данные, от которых инженеры Кремниевой долины должны сесть прямо: DeepSeek V4 и Kimi K2.6 сравнялись с GPT-5.5 и Claude Opus 4.7 на SWE-Bench Pro при стоимости API примерно в три раза ниже за миллион токенов.

Это уже не история про «соотношение цены и качества» — это сигнал «равная производительность, сокрушительная цена».

Сравнение данных

МодельSWE-Bench ProВходная цена ($/M токенов)Выходная цена ($/M токенов)Архитектура
GPT-5.567.2%$10.00$40.00Dense MoE
Claude Opus 4.766.8%$15.00$75.00Dense MoE
DeepSeek V467.0%$2.50$8.00MoE (активных 32B)
Kimi K2.666.5%$3.00$10.00MoE (активных 32B, всего 1T)

Ключевые детали:

  • SWE-Bench Pro — на сегодня самый строгий бенчмарк кодирования, охватывающий реальные задачи исправления ошибок в разных языках и репозиториях
  • DeepSeek V4 и Kimi K2.6 используют архитектуру MoE (смесь экспертов), активируя лишь ~32 миллиарда параметров на токен при инференсе — значительно меньше общего числа параметров
  • Данные по ценам основаны на официальных тарифах API (май 2026)

Почему этот сигнал важнее баллов бенчмарков

Последние два года разговоры в мире AI вращались вокруг «кто умнее». Этот отчёт указывает на более фундаментальную тенденцию: интеллект превращается из редкого ресурса в инфраструктуру.

Несколько перекрёстно подтверждённых сигналов:

  1. Способности передовых моделей к кибератакам удваиваются каждые 4 месяца (данные UK AISI) — скорость развития моделей значительно опережает корректировку цен
  2. Китайские лаборатории лидируют и на SWE-Bench Multilingual — Kimi K2.6 превосходит Claude Sonnet 4.6 в многоязычных задачах кодирования
  3. Модели с открытыми весами сокращают отставание от закрытых — веса Kimi K2.6 опубликованы, веса DeepSeek V4 также открыты

Оценка ландшафта

Этот тренд имеет разное значение для разных ролей:

РольСигналДействие
Независимый разработчикЦеновой барьер Coding Agent снизился до $5/месРазвернуть Ollama + Hermes Agent на VPS, запускать задачи кодирования локально
Корпоративный CTOСоотношение производительности и стоимости китайских открытых моделей больше нельзя игнорироватьВнедрить DeepSeek/Kimi как резерв для GPT-5.5 во внутренних инструментах
Вендоры моделейОкно премиальных цен закрытых моделей сужаетсяНеобходимо строить новые защитные линии в рабочих процессах Agent, мультимодальности, корпоративной безопасности

Факторы неопределённости

  • SWE-Bench Pro строг, но это всё ещё бенчмарк. Производительность в реальных проектах может варьироваться в зависимости от сложности кодовой базы, требований к длине контекста и других факторов
  • Экосистема инструментов китайских моделей (интеграция с IDE, MCP-серверы, плагины) всё ещё догоняет
  • Экспортный контроль США в отношении AI-технологий может повлиять на глобальную доступность этих моделей

Итог в одном предложении: Когда DeepSeek V4 и Kimi K2.6 сравниваются с GPT-5.5 по способностям кодирования при трети цены, вопрос «какую модель выбрать» смещается от «кто умнее» к «кто экономичнее».