结论先行
截至 2026 年 4 月底,全球主流 AI 模型排行榜呈现”两榜双雄”格局:LMArena(原 Chatbot Arena)的 Elo 排名中 Anthropic 占据榜首,Artificial Analysis 综合指数中 OpenAI 的 GPT-5.5 系列领跑。两份榜单分别反映真实用户偏好和标准化基准测试,合在一起才能看全。
LMArena Elo 排名:用户投票的”体感排行榜”
LMArena 基于全球用户匿名 A/B 对战投票,数据截至 4 月 24 日:
| 排名 | 模型 | Elo 分数 | 厂商 |
|---|---|---|---|
| 1 | Opus 4.7 (thinking) | 1503 | Anthropic |
| 2 | Claude Opus 4.6 (thinking) | 1503 | Anthropic |
| 3 | Claude Opus 4.6 | 1496 | Anthropic |
| 4 | Opus 4.7 | 1494 | Anthropic |
| 5 | Gemini 3.1 Pro Preview | 1493 | Google DeepMind |
| 6 | Muse Spark | 1492 | Meta AI |
| 7 | Gemini 3.0 Pro | 1486 | Google DeepMind |
| 8 | grok-4.20-beta1 | 1482 | xAI |
| 9 | gpt-5.4-high | 1481 | OpenAI |
| 10 | grok-4.20-beta-reasoning | 1479 | xAI |
关键信号:
- Anthropic 在前四名中占据三席,thinking 模式显著提升了 Elo 分数。
- Meta Muse Spark 作为 Meta 自 2025 年初以来首个重大模型发布,首次跻身前十(1492 分),与 Gemini 3.1 Pro 仅差 1 分。
- OpenAI 的 gpt-5.4-high 仅列第 9,GPT-5.5 尚未出现在此榜单中(发布较晚,数据尚未收录)。
AA 综合指数:标准化基准的”硬实力排行榜”
Artificial Analysis 汇总编程、数学、科学、推理、智能体等 10 项标准化评测,数据截至 4 月 25 日:
| 排名 | 模型 | 分数 | 厂商 |
|---|---|---|---|
| 1 | GPT-5.5 (xhigh) | 60 | OpenAI |
| 2 | GPT-5.5 (high) | 59 | OpenAI |
| 3 | Opus 4.7 (max) | 57 | Anthropic |
| 4 | Gemini 3.1 Pro Preview | 57 | Google DeepMind |
| 5 | GPT-5.4 (xhigh) | 57 | OpenAI |
| 6 | GPT-5.5 (medium) | 57 | OpenAI |
| 7 | Kimi K2.6 | 54 | Moonshot AI |
| 8 | MiMo-V2.5-Pro | 54 | Xiaomi |
| 9 | GPT-5.3 Codex (xhigh) | 54 | OpenAI |
| 10 | Muse Spark | 52 | Meta AI |
关键信号:
- GPT-5.5 系列包揽前两名,前六席中占据四席。
- 中国模型 Kimi K2.6(月之暗面)以 54 分位列第 7,是前十中唯一的中国模型。
- 小米 MiMo-V2.5-Pro 以 54 分进入前十,硬件厂商的 AI 投入开始进入主流视野。
为什么两榜结果不同?
LMArena 的 Elo 反映的是用户偏好——谁的回答看起来更好用、更令人满意。AA 指数反映的是标准化基准跑分——谁在预定义的测试集上得分更高。
GPT-5.5 在 AA 指数中强势但在 LMArena 中排名靠后(数据尚未收录),可能因为:(1)发布仅数天,用户投票数据尚未积累;(2)GPT-5.5 的优势集中在长上下文和代理任务,这些在 LMArena 的 A/B 对战中不易体现。
Claude Opus 4.7 在两榜中都进入前列,说明其能力在客观基准和主观偏好中都得到了验证。
选择建议
- 追求综合基准最强:GPT-5.5 (xhigh),AA 指数 60 分
- 追求用户体验最佳:Claude Opus 4.7 (thinking),LMArena 1503 Elo
- 关注性价比:GPT-5.5 (medium) AA 57 分,价格低于 xhigh
- 关注中国模型:Kimi K2.6 以 54 分进入前十,是国产模型的最高排名
- 关注开源 / 半开源:Muse Spark(Meta)52 分,首次跻身前十