同样的 Agent 能力,MiMo 比 Claude Opus 4.6 少花一半 Token

同样的 Agent 能力,MiMo 比 Claude Opus 4.6 少花一半 Token

当开源模型的 Agent 能力追平了闭源模型,竞争就转移到了一个新的维度:谁花更少的钱,干同样的活。

MiMo-V2.5 在这一点上给出了一个让同行尴尬的数字。

数据

在 ClawEval 标准 Agent 任务中的表现:

模型单轨迹 Token 消耗Pass³ 通过率
MiMo-V2.5-Pro~7 万64%
Claude Opus 4.612-18 万相当
Gemini 3.1 Pro12-18 万-
GPT-5.412-18 万相当

同样的 Agent 能力,MiMo 消耗的 Token 比竞品少 40%-60%。

这意味着什么?如果你的 Agent 系统每天要跑 1000 次任务,用 MiMo 的 Token 成本大约是用 Claude 的三分之一到一半。

为什么 Token 效率重要

很多人只看模型的”能力”和”准确率”,忽略了”成本”。但 Agent 场景的特殊性在于:

一次任务 = N 次工具调用 = N × Token 消耗

不像简单的一次问答(输入一次,输出一次),Agent 需要反复调用搜索、代码执行、文件读写等工具。每调用一次工具,模型的上下文就增长一段。如果模型需要 18 万 Token 才能完成任务,而另一个模型用 7 万 Token 就能完成——差距会按调用次数放大。

MiMo-V2.5 的 Token 效率优势来自两个层面:

  1. 更精准的决策:减少不必要的工具调用和重复推理
  2. 更紧凑的上下文管理:不浪费 Token 在无关信息上

加上 1M 上下文窗口

两个模型(Pro 和标准版)都标配了 1M 上下文窗口。结合 Token 效率来看——你能在同样的预算下,跑更长的任务、处理更多的上下文、做更多的迭代。

这对于 RAG 应用(需要把大量文档塞进上下文)和长周期 Agent 任务(需要维持长时间的历史记录)尤其有意义。

局限

  • 这是单一基准(ClawEval)的数据,不同任务的 Token 效率比可能有差异
  • 12-18 万 Token 是竞品的大致范围,不是精确测试值
  • 实际成本还取决于部署环境(本地 GPU vs API 调用)

来源