State of AI May 2026：DeepSeek V4、Kimi K2.6 在 SWE-Bench Pro 追平 Claude/GPT-5.5，成本仅三分之一

核心发现

“中国 AI 落后两年”的说法，在 2026 年 5 月的数据面前站不住脚了。

State of AI May 2026 报告揭示了一组让西方科技圈沉默的数据：

DeepSeek V4 和 Kimi K2.6 在 SWE-Bench Pro 上的得分，已经与 Claude Opus 4.7、GPT-5.5 拉平。而推理成本，只有后者的三分之一。

模型	SWE-Bench Pro	FrontierSWE	推理成本（相对）
Claude Opus 4.7	~58	~38	1.0x（基准）
GPT-5.5	~58	~40	1.0x
DeepSeek V4	~57	~28	0.33x
Kimi K2.6	~56	~25	0.30x
Gemini 3.1	~57	~35	0.70x

关键洞察：

SWE-Bench Pro 已不再是区分器。中国开源模型在这个基准上已经追平甚至略微超越部分美国前沿模型
FrontierSWE 才是新的分水岭。这是一个测量长程、多步骤真实工程任务的基准。在这里，Claude 和 GPT-5.5 仍然领先中国模型 10-15 个百分点
成本优势是结构性的。DeepSeek V4 采用 MoE（混合专家）架构，活跃参数少，推理效率显著高于稠密模型

报告的另一条警示线更令人不安：

前沿模型的网络攻击能力正在以每 4 个月翻倍的速度增长。

Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 都通过了英国 AISI 的完整 32 步企业网络入侵模拟（无防御方）。这意味着：

DeepSeek V4 和 Kimi K2.6 的 SWE-Bench Pro 成绩并非偶然。它们的设计哲学与 Claude/GPT 不同：

FrontierSWE 的差距说明了一个关键事实：短程编码能力已经收敛，真正的竞争在长程工程能力。

Claude Opus 4.7 和 GPT-5.5 在以下方面仍有明显优势：

你的场景	推荐方案
日常编码 / 快速原型	DeepSeek V4（MIT 许可，成本极低，SWE-Bench Pro 表现一流）
复杂系统重构	Claude Opus 4.7 / GPT-5.5（FrontierSWE 领先，长程任务更可靠）
成本敏感的批量任务	Kimi K2.6（0.3x 成本，SWE-Bench Pro 追平）
企业安全评估	立即启动 AI 攻击面审计，网络攻击能力正在指数增长

“落后”的叙事需要更新了。真正的竞争已经从”谁能跑通基准测试”转向了”谁能处理真实世界中的长程工程任务”。