AI Agent 评测方法论：为什么 MMLU 和 HumanEval 已经不够用了

如果你还在用 HumanEval 分数判断一个模型的编程能力，用 MMLU 分数判断它的通用智能水平，那么你的评估框架可能已经落后于模型的实际能力了。2026 年 AI 行业正在经历一场评测范式的转变——从静态答题转向动态执行。

传统基准的问题

HumanEval、MMLU、GSM8K 这些经典基准有一个共同特点：它们是封闭的、静态的、有标准答案的题目集。但真实的 AI Agent 工作场景完全不同：

Agent 需要调用多个外部工具（终端、浏览器、数据库、API）
任务的正确性不仅取决于输出文本，还取决于执行效果
长流程任务中的中间步骤错误会累积，最终导致失败
模型的缓存行为会影响评估的公平性

Google 的 Logan Kilpatrick 最近在 X 上提出：“每个基于 AI 构建的公司都应该制作自己的基准。“这不是客套话，而是对当前评估体系失效的承认。

新一代评测框架

Terminal-Bench 2.0

Terminal-Bench 评估模型在真实命令行工作流中的端到端完成能力。GPT-5.5 在此基准上得分 82.7%，领先 Claude Opus 4.7 约 13 个百分点。这个差距在 HumanEval 上几乎看不到——说明 Terminal-Bench 捕捉到了传统基准忽略的能力维度。

AgenticSwarmBench

AgenticSwarmBench 是今年新涌现的 Agent 评估框架，设计特点包括：

300 个人工验证任务，覆盖多步骤工具调用、错误恢复和并行执行
19 个模拟服务带错误注入，测试 Agent 在面对 API 故障、超时、数据不一致时的鲁棒性
完整轨迹审计，不仅看结果，还分析 Agent 的决策路径

xreach 上有开发者评价它是”设计最完善的 eval 框架之一”，因为它同时测试了 Agent 的能力上限和故障处理能力。

SWE-bench Pro

SWE-bench Pro 是 SWE-bench 的升级版，专注于真实软件工程任务的评估。Claude Opus 4.7 在 SWE-bench Pro 上达到 64.3%，GPT-5.5 为 58.6%。与传统 HumanEval 不同，SWE-bench Pro 的测试任务来自真实 GitHub 仓库的 issue 和 PR，更接近实际开发场景。

GENERAL365

GENERAL365 是一个针对 K-12 知识范围内的复杂推理基准，测试模型在复杂约束、嵌套逻辑和语义干扰下的表现。这个基准的价值在于它绕开了”模型是否见过这道题”的问题——365 道题全部人工策展，重点考察推理过程而非知识检索。

如何为你的场景选择评测方法

如果你在做代码 Agent：

用 SWE-bench Pro 评估代码修复能力
用 Terminal-Bench 2.0 评估命令行自动化能力
补充真实项目测试：让 Agent 处理你自己的代码库 issue

如果你在做通用对话 Agent：

Arena Leaderboard 仍然是最可靠的通用能力指标
补充长上下文测试（MRCR @ 1M 等），如果你的场景需要处理超长文档

如果你在做垂直领域 Agent：

遵循 Logan Kilpatrick 的建议：构建自己的基准
从你的业务场景中抽取 50-100 个代表性任务
用多个模型批量执行，统计成功率和错误模式

值得注意的评估陷阱

Arena 排行榜反映的是用户偏好，不一定是技术能力。 一个模型可能因为回复风格更友好而获得更高分数，不代表它的推理能力更强。
基准分数不等于真实可用性。 SWE-bench 64.3% 意味着 35.7% 的失败率——在真实生产环境中，这个失败率可能需要额外的人工审核层来兜底。
缓存效应。 如果模型在训练时见过基准题目，分数会虚高。选择新发布的、人工策展的基准能更好避免这个问题。

趋势判断

评测范式正在从”模型答对了几道题”转向”模型在真实环境中完成了多少任务”。对于开发者来说，这意味着：选择模型时，不要只看基准分数，要看它在你的具体场景中的实际表现。对于模型厂商来说，这意味着：透明地公布失败案例和局限性，比只报最高分更能赢得开发者信任。

主要来源：

传统基准的问题

新一代评测框架

Terminal-Bench 2.0

AgenticSwarmBench

SWE-bench Pro

GENERAL365

如何为你的场景选择评测方法

值得注意的评估陷阱

趋势判断

相关内容

Kimi K2.6 登顶 Design Arena：月之暗面在 3D 设计领域超越所有美国模型

Qwen 3.6 Max BS Benchmark 评测：反幻觉能力超越所有 OpenAI 模型

Oxford/LLNL 链式推理基准：GPT 单项 95.7%，串联后暴跌至 9.83%