截至 2026 年 4 月底,LMSYS Chatbot Arena 的最新排行榜呈现一个清晰格局:Anthropic 在文字和代码两个主赛道上同时领跑,但开源阵营的追赶速度显著加快。
文字榜 Top 10:Anthropic 四席包揽
Arena 文字总榜的前十名如下(Elo 分数,越高越好):
| 排名 | 模型 | 分数 | 实验室 |
|---|---|---|---|
| 1 | claude-opus-4-7-thinking | 1503 ±8 | Anthropic |
| 2 | claude-opus-4-6-thinking | 1501 ±5 | Anthropic |
| 3 | claude-opus-4-6 | 1496 ±5 | Anthropic |
| 4 | claude-opus-4-7 | 1493 ±7 | Anthropic |
| 5 | gemini-3.1-pro-preview | 1493 ±5 | |
| 6 | muse-spark | 1489 ±7 | Meta |
| 7 | gpt-5.5-high | 1488 ±10 | OpenAI |
| 8 | gemini-3-pro | 1486 ±4 | |
| 9 | grok-4.20-beta1 | 1481 ±5 | xAI |
| 10 | gpt-5.4-high | 1479 ±6 | OpenAI |
四个关键点值得关注:
Anthropic 的 thinking 模式优势明显。 claude-opus-4-7-thinking 以 1503 分位列第一,比不带 thinking 的同版本(1493 分)高出 10 分。这种差距在代码榜上更为显著——thinking 模式在代码榜上达到 1571 分,比不带 thinking 的版本高出 6 分。
OpenAI GPT-5.5 排名不及预期。 gpt-5.5-high 以 1488 分排在第七位,落后于 Claude 全系和 Gemini 3.1 Pro。考虑到 GPT-5.5 是 OpenAI 最新的旗舰模型,这个排名说明在 Arena 的众包对战机制下,它的对话体验没有形成压倒性优势。不过误差范围 ±10 是所有 Top 10 模型中最大的,说明用户评价分歧也最大。
Meta muse-spark 首次进入文字榜 Top 6。 这款 Meta 新模型以 1489 分超过 GPT-5.5,成为文字榜排名最高的非 Anthropic/Google 模型。如果后续确认其开源属性,它将成为当前最强的开源文字模型。
Google 双子星稳定但缺乏突破。 gemini-3.1-pro-preview(1493)和 gemini-3-pro(1486)分列第五和第八,分数差距不大,说明 Gemini 3.1 Pro 相对 3.0 的提升在用户侧感知有限。
代码榜:Anthropic 统治力更强
代码 Arena 的差距更为悬殊:
| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1571 |
| 2 | claude-opus-4-7 | 1565 |
| 3 | claude-opus-4-6-thinking | 1551 |
| 4 | claude-opus-4-6 | 1548 |
| 5 | glm-5.1 | 1534 |
| 6 | kimi-k2.6 | 1529 |
| 7 | claude-sonnet-4-6 | 1525 |
| 8 | muse-spark | 1510 |
| 9 | gpt-5.5-high (codex-harness) | 1500 |
| 10 | claude-opus-4-5-thinking-32k | 1491 |
代码榜上 Anthropic 的优势更加突出——前四名全部是 Claude,且 thinking 模式和非 thinking 模式形成了两个梯队。GLM-5.1 和 Kimi-K2.6 分别以 1534 和 1529 分占据第五、第六,是中国模型在代码榜上的最佳表现。
值得注意的是,GPT-5.5 在代码榜上必须依赖 Codex harness(工具调用框架)才能达到 1500 分,裸跑版本的排名更低。这说明在纯代码生成和编辑场景下,GPT-5.5 需要额外的工程集成才能发挥最佳效果。
开源模型的进展
虽然 Arena 官方没有标注开源/闭源标签,但结合已知信息:
- muse-spark(Meta):如果确认开源,1489 分的文字榜成绩和 1510 分的代码榜成绩都超过了 GPT-5.5。
- 小米 MiMo-V2.5-Pro:据 xreach 和 IQS 搜索结果,该模型在 Arena 文字榜达到开源模型第一、全球第六(与 muse-spark 位置相当),Agent 专项指数开源第一。
- GLM-5.1(智谱):代码榜第五,1534 分,是目前在代码 Arena 排名最高的中国模型。
开源模型与闭源第一名的分差从一年前的 50+ 分缩小到 15-20 分区间,这意味着在真实用户场景下,开源模型的可用性正在接近闭源旗舰。
格局判断
当前的 Arena 榜单反映了一个三极格局:Anthropic 在文字和代码两个维度同时领先,Google 以 Gemini 系列稳定保持第二梯队,OpenAI 的 GPT-5.5 在 Arena 众包评价中并未重现过去的统治地位。开源阵营中,Meta 和中国模型正在缩小差距,但距离全面超越闭源旗舰仍有距离。
对于读者来说,如果你需要一个在对话和代码上都稳定的模型,Claude Opus 4.7 仍然是首选。如果更关注性价比和可控性,小米 MiMo-V2.5-Pro 和 GLM-5.1 值得试用。
主要来源: