AI Agent 评测方法论:为什么 MMLU 和 HumanEval 已经不够用了

AI Agent 评测方法论:为什么 MMLU 和 HumanEval 已经不够用了

如果你还在用 HumanEval 分数判断一个模型的编程能力,用 MMLU 分数判断它的通用智能水平,那么你的评估框架可能已经落后于模型的实际能力了。2026 年 AI 行业正在经历一场评测范式的转变——从静态答题转向动态执行。

传统基准的问题

HumanEval、MMLU、GSM8K 这些经典基准有一个共同特点:它们是封闭的、静态的、有标准答案的题目集。但真实的 AI Agent 工作场景完全不同:

  • Agent 需要调用多个外部工具(终端、浏览器、数据库、API)
  • 任务的正确性不仅取决于输出文本,还取决于执行效果
  • 长流程任务中的中间步骤错误会累积,最终导致失败
  • 模型的缓存行为会影响评估的公平性

Google 的 Logan Kilpatrick 最近在 X 上提出:“每个基于 AI 构建的公司都应该制作自己的基准。“这不是客套话,而是对当前评估体系失效的承认。

新一代评测框架

Terminal-Bench 2.0

Terminal-Bench 评估模型在真实命令行工作流中的端到端完成能力。GPT-5.5 在此基准上得分 82.7%,领先 Claude Opus 4.7 约 13 个百分点。这个差距在 HumanEval 上几乎看不到——说明 Terminal-Bench 捕捉到了传统基准忽略的能力维度。

AgenticSwarmBench

AgenticSwarmBench 是今年新涌现的 Agent 评估框架,设计特点包括:

  • 300 个人工验证任务,覆盖多步骤工具调用、错误恢复和并行执行
  • 19 个模拟服务带错误注入,测试 Agent 在面对 API 故障、超时、数据不一致时的鲁棒性
  • 完整轨迹审计,不仅看结果,还分析 Agent 的决策路径

xreach 上有开发者评价它是”设计最完善的 eval 框架之一”,因为它同时测试了 Agent 的能力上限和故障处理能力。

SWE-bench Pro

SWE-bench Pro 是 SWE-bench 的升级版,专注于真实软件工程任务的评估。Claude Opus 4.7 在 SWE-bench Pro 上达到 64.3%,GPT-5.5 为 58.6%。与传统 HumanEval 不同,SWE-bench Pro 的测试任务来自真实 GitHub 仓库的 issue 和 PR,更接近实际开发场景。

GENERAL365

GENERAL365 是一个针对 K-12 知识范围内的复杂推理基准,测试模型在复杂约束、嵌套逻辑和语义干扰下的表现。这个基准的价值在于它绕开了”模型是否见过这道题”的问题——365 道题全部人工策展,重点考察推理过程而非知识检索。

如何为你的场景选择评测方法

如果你在做代码 Agent:

  • 用 SWE-bench Pro 评估代码修复能力
  • 用 Terminal-Bench 2.0 评估命令行自动化能力
  • 补充真实项目测试:让 Agent 处理你自己的代码库 issue

如果你在做通用对话 Agent:

  • Arena Leaderboard 仍然是最可靠的通用能力指标
  • 补充长上下文测试(MRCR @ 1M 等),如果你的场景需要处理超长文档

如果你在做垂直领域 Agent:

  • 遵循 Logan Kilpatrick 的建议:构建自己的基准
  • 从你的业务场景中抽取 50-100 个代表性任务
  • 用多个模型批量执行,统计成功率和错误模式

值得注意的评估陷阱

  • Arena 排行榜反映的是用户偏好,不一定是技术能力。 一个模型可能因为回复风格更友好而获得更高分数,不代表它的推理能力更强。
  • 基准分数不等于真实可用性。 SWE-bench 64.3% 意味着 35.7% 的失败率——在真实生产环境中,这个失败率可能需要额外的人工审核层来兜底。
  • 缓存效应。 如果模型在训练时见过基准题目,分数会虚高。选择新发布的、人工策展的基准能更好避免这个问题。

趋势判断

评测范式正在从”模型答对了几道题”转向”模型在真实环境中完成了多少任务”。对于开发者来说,这意味着:选择模型时,不要只看基准分数,要看它在你的具体场景中的实际表现。对于模型厂商来说,这意味着:透明地公布失败案例和局限性,比只报最高分更能赢得开发者信任。


主要来源: