Kimi K2.6 开源:1T MoE 架构,编码基准逼近 GPT-5.4 与 Opus 4.7

Kimi K2.6 开源:1T MoE 架构,编码基准逼近 GPT-5.4 与 Opus 4.7

Moonshot AI(月之暗面)在 4 月下旬开源了 Kimi K2.6 模型。这不是一个常规的模型迭代——它在多个基准测试中接近了顶级闭源模型的水平,同时保持了完全开源和可商用的定位。

核心数据

  • 架构:1T 参数 MoE(混合专家)模型
  • 上下文窗口:256K tokens(训练平台支持 265K)
  • 许可证:开源权重,可通过 Nous Portal、Cline、Fireworks AI 等平台直接使用
  • GitHubMoonshotAI/Kimi-K2 已获得 10,700 颗 Star

基准表现

Kimi K2.6 在多个第三方评测中表现突出:

评测集Kimi K2.6对比参考
LiveBench超越 Opus 4.7开源模型中最高
Terminal-Bench接近 GPT-5.4、Opus 4.7成本约 1/6
Document Arena#8,较 K2.5-Thinking +14 分开源模型第一
Vision Arena#15,较 K2.5-Thinking +9 分开源视觉模型第一

Document Arena 和 Vision Arena 的排名由第三方社区维护,分数提升幅度值得注意。LiveBench 的超越需要关注测试集是否与训练数据存在重叠,但 Terminal-Bench 的编码表现已在多个独立实测中得到验证。

Agent 能力

Kimi K2.6 最突出的差异点是长程 Agent 能力:

  • 支持 300 个并行子 Agent,从单一 prompt 启动
  • 可执行 4,000 步协调操作
  • 支持 12 小时自主运行
  • 覆盖编码、研究、幻灯片、电子表格、数据集生成、文档编写等场景

这种规模的 Agent 编排能力在开源模型中较为少见。大多数开源模型在 Agent 场景中受限于上下文管理和工具调用的稳定性,K2.6 的设计明显针对这一问题。

可用渠道

目前已上线的平台包括:

  • Nous Portal:免费试用(由 Vercel AI Gateway 支持)
  • Cline:限时免费 3 天
  • Fireworks AI:支持 SFT、DPO、RL 微调,265K 上下文窗口
  • Cloudflare Workers:可直接部署
  • Hugging Face:开放权重下载

与竞品对比

与闭源模型相比,Kimi K2.6 的成本优势显著——约为 Opus 4.7 的 1/6,比 GLM 5.1 低约 30%。但在极端推理任务(如数学竞赛级问题)上的表现仍落后于顶级闭源模型,这从 AIME 等评测中可以观察到。

对于日常编码、文档处理和中等复杂度的 Agent 任务,Kimi K2.6 提供了目前开源生态中最接近闭源前沿模型的替代方案。

快速上手

# 通过 Cline 使用
# 安装 Cline 后选择 Kimi K2.6 模型

# 通过 Hugging Face 下载权重
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("MoonshotAI/Kimi-K2.6", trust_remote_code=True)

观察点

  • 开源许可证的具体商业使用限制需要仔细阅读
  • 300 Agent 并发的实际硬件需求尚未有公开的最佳实践
  • 中文能力表现需要更多社区实测数据支撑

主要来源