2026年4月AI模型排行榜:Anthropic登顶LMArena,GPT-5.5统治AA指数

2026年4月AI模型排行榜:Anthropic登顶LMArena,GPT-5.5统治AA指数

结论先行

截至 2026 年 4 月底,全球主流 AI 模型排行榜呈现”两榜双雄”格局:LMArena(原 Chatbot Arena)的 Elo 排名中 Anthropic 占据榜首,Artificial Analysis 综合指数中 OpenAI 的 GPT-5.5 系列领跑。两份榜单分别反映真实用户偏好和标准化基准测试,合在一起才能看全。

LMArena Elo 排名:用户投票的”体感排行榜”

LMArena 基于全球用户匿名 A/B 对战投票,数据截至 4 月 24 日:

排名模型Elo 分数厂商
1Opus 4.7 (thinking)1503Anthropic
2Claude Opus 4.6 (thinking)1503Anthropic
3Claude Opus 4.61496Anthropic
4Opus 4.71494Anthropic
5Gemini 3.1 Pro Preview1493Google DeepMind
6Muse Spark1492Meta AI
7Gemini 3.0 Pro1486Google DeepMind
8grok-4.20-beta11482xAI
9gpt-5.4-high1481OpenAI
10grok-4.20-beta-reasoning1479xAI

关键信号

  • Anthropic 在前四名中占据三席,thinking 模式显著提升了 Elo 分数。
  • Meta Muse Spark 作为 Meta 自 2025 年初以来首个重大模型发布,首次跻身前十(1492 分),与 Gemini 3.1 Pro 仅差 1 分。
  • OpenAI 的 gpt-5.4-high 仅列第 9,GPT-5.5 尚未出现在此榜单中(发布较晚,数据尚未收录)。

AA 综合指数:标准化基准的”硬实力排行榜”

Artificial Analysis 汇总编程、数学、科学、推理、智能体等 10 项标准化评测,数据截至 4 月 25 日:

排名模型分数厂商
1GPT-5.5 (xhigh)60OpenAI
2GPT-5.5 (high)59OpenAI
3Opus 4.7 (max)57Anthropic
4Gemini 3.1 Pro Preview57Google DeepMind
5GPT-5.4 (xhigh)57OpenAI
6GPT-5.5 (medium)57OpenAI
7Kimi K2.654Moonshot AI
8MiMo-V2.5-Pro54Xiaomi
9GPT-5.3 Codex (xhigh)54OpenAI
10Muse Spark52Meta AI

关键信号

  • GPT-5.5 系列包揽前两名,前六席中占据四席。
  • 中国模型 Kimi K2.6(月之暗面)以 54 分位列第 7,是前十中唯一的中国模型。
  • 小米 MiMo-V2.5-Pro 以 54 分进入前十,硬件厂商的 AI 投入开始进入主流视野。

为什么两榜结果不同?

LMArena 的 Elo 反映的是用户偏好——谁的回答看起来更好用、更令人满意。AA 指数反映的是标准化基准跑分——谁在预定义的测试集上得分更高。

GPT-5.5 在 AA 指数中强势但在 LMArena 中排名靠后(数据尚未收录),可能因为:(1)发布仅数天,用户投票数据尚未积累;(2)GPT-5.5 的优势集中在长上下文和代理任务,这些在 LMArena 的 A/B 对战中不易体现。

Claude Opus 4.7 在两榜中都进入前列,说明其能力在客观基准和主观偏好中都得到了验证。

选择建议

  • 追求综合基准最强:GPT-5.5 (xhigh),AA 指数 60 分
  • 追求用户体验最佳:Claude Opus 4.7 (thinking),LMArena 1503 Elo
  • 关注性价比:GPT-5.5 (medium) AA 57 分,价格低于 xhigh
  • 关注中国模型:Kimi K2.6 以 54 分进入前十,是国产模型的最高排名
  • 关注开源 / 半开源:Muse Spark(Meta)52 分,首次跻身前十

来源