C
ChaoBro

State of AI 2026 年 5 月报告:中国开源模型在 SWE-Bench Pro 追平 GPT-5.5/Claude,成本仅 1/3

State of AI 2026 年 5 月报告:中国开源模型在 SWE-Bench Pro 追平 GPT-5.5/Claude,成本仅 1/3

核心结论

最新一期 State of AI 月度报告(2026 年 5 月)给出了一个让硅谷工程师坐不住的数据:DeepSeek V4 和 Kimi K2.6 在 SWE-Bench Pro 上的表现已与 GPT-5.5 和 Claude Opus 4.7 拉平,但每百万 Token 的 API 成本仅为对方的约三分之一。

这不再是一个”性价比”的故事——而是一个”性能对等但价格碾压”的信号。

数据对比

模型SWE-Bench Pro输入价格 ($/M tokens)输出价格 ($/M tokens)架构
GPT-5.567.2%$10.00$40.00Dense MoE
Claude Opus 4.766.8%$15.00$75.00Dense MoE
DeepSeek V467.0%$2.50$8.00MoE (激活 32B)
Kimi K2.666.5%$3.00$10.00MoE (激活 32B, 总 1T)

关键细节:

  • SWE-Bench Pro 是目前最严格的编码基准,覆盖跨语言、跨仓库的真实 issue 修复任务
  • DeepSeek V4 和 Kimi K2.6 均采用 MoE(混合专家)架构,实际推理时每 Token 仅激活约 320 亿参数,远低于模型总参数量
  • 价格数据基于各模型官方 API 定价(2026 年 5 月)

为什么这个信号比评测分数更重要

过去两年,AI 圈的讨论一直围绕”谁更聪明”。这份报告暗示了一个更底层的趋势:智能正在从稀缺资源变为基础设施。

几个交叉验证的信号:

  1. 前沿模型的网络攻击能力每 4 个月翻倍(UK AISI 数据),说明模型能力迭代速度远超价格调整速度
  2. 中国实验室在 SWE-Bench Multilingual 上同样领先,Kimi K2.6 在多语言编码任务上表现优于 Claude Sonnet 4.6
  3. 开源权重模型正在缩小与闭源模型的差距——Kimi K2.6 的权重已公开,DeepSeek V4 的权重也已开源

格局判断

这个趋势对三类人有不同的含义:

角色信号行动建议
独立开发者编码 Agent 的成本门槛已降至 $5/月在 VPS 上部署 Ollama + Hermes Agent,用本地模型跑编码任务
企业 CTO中国开源模型的性能/成本比已无法忽视在内部工具链中引入 DeepSeek/Kimi 作为 GPT-5.5 的 fallback
模型厂商闭源溢价窗口正在收窄必须在 Agent 工作流、多模态、企业安全等维度建立新护城河

需要注意的不确定性

  • SWE-Bench Pro 虽然严格,但仍然是基准测试。真实项目中的表现可能因代码库复杂度、上下文长度需求等因素有所不同
  • 中国模型的生态工具链(IDE 集成、MCP 服务器、插件)仍在追赶阶段
  • 美国对华 AI 出口管制可能影响模型的全球可及性

一句话总结:当 DeepSeek V4 和 Kimi K2.6 在编码能力上与 GPT-5.5 打平,价格却只有三分之一时,“选哪个模型”这个问题正在从”谁更聪明”变成”谁更划算”。