Chatbot Arena 2026年4月：Anthropic 包揽前四，开源与闭源差距缩小

截至 2026 年 4 月底，LMSYS Chatbot Arena 的最新排行榜呈现一个清晰格局：Anthropic 在文字和代码两个主赛道上同时领跑，但开源阵营的追赶速度显著加快。

文字榜 Top 10：Anthropic 四席包揽

Arena 文字总榜的前十名如下（Elo 分数，越高越好）：

排名	模型	分数	实验室
1	claude-opus-4-7-thinking	1503 ±8	Anthropic
2	claude-opus-4-6-thinking	1501 ±5	Anthropic
3	claude-opus-4-6	1496 ±5	Anthropic
4	claude-opus-4-7	1493 ±7	Anthropic
5	gemini-3.1-pro-preview	1493 ±5	Google
6	muse-spark	1489 ±7	Meta
7	gpt-5.5-high	1488 ±10	OpenAI
8	gemini-3-pro	1486 ±4	Google
9	grok-4.20-beta1	1481 ±5	xAI
10	gpt-5.4-high	1479 ±6	OpenAI

四个关键点值得关注：

Anthropic 的 thinking 模式优势明显。 claude-opus-4-7-thinking 以 1503 分位列第一，比不带 thinking 的同版本（1493 分）高出 10 分。这种差距在代码榜上更为显著——thinking 模式在代码榜上达到 1571 分，比不带 thinking 的版本高出 6 分。

OpenAI GPT-5.5 排名不及预期。 gpt-5.5-high 以 1488 分排在第七位，落后于 Claude 全系和 Gemini 3.1 Pro。考虑到 GPT-5.5 是 OpenAI 最新的旗舰模型，这个排名说明在 Arena 的众包对战机制下，它的对话体验没有形成压倒性优势。不过误差范围 ±10 是所有 Top 10 模型中最大的，说明用户评价分歧也最大。

Meta muse-spark 首次进入文字榜 Top 6。 这款 Meta 新模型以 1489 分超过 GPT-5.5，成为文字榜排名最高的非 Anthropic/Google 模型。如果后续确认其开源属性，它将成为当前最强的开源文字模型。

Google 双子星稳定但缺乏突破。 gemini-3.1-pro-preview（1493）和 gemini-3-pro（1486）分列第五和第八，分数差距不大，说明 Gemini 3.1 Pro 相对 3.0 的提升在用户侧感知有限。

代码榜：Anthropic 统治力更强

代码 Arena 的差距更为悬殊：

排名	模型	分数
1	claude-opus-4-7-thinking	1571
2	claude-opus-4-7	1565
3	claude-opus-4-6-thinking	1551
4	claude-opus-4-6	1548
5	glm-5.1	1534
6	kimi-k2.6	1529
7	claude-sonnet-4-6	1525
8	muse-spark	1510
9	gpt-5.5-high (codex-harness)	1500
10	claude-opus-4-5-thinking-32k	1491

代码榜上 Anthropic 的优势更加突出——前四名全部是 Claude，且 thinking 模式和非 thinking 模式形成了两个梯队。GLM-5.1 和 Kimi-K2.6 分别以 1534 和 1529 分占据第五、第六，是中国模型在代码榜上的最佳表现。

值得注意的是，GPT-5.5 在代码榜上必须依赖 Codex harness（工具调用框架）才能达到 1500 分，裸跑版本的排名更低。这说明在纯代码生成和编辑场景下，GPT-5.5 需要额外的工程集成才能发挥最佳效果。

开源模型的进展

虽然 Arena 官方没有标注开源/闭源标签，但结合已知信息：

muse-spark（Meta）：如果确认开源，1489 分的文字榜成绩和 1510 分的代码榜成绩都超过了 GPT-5.5。
小米 MiMo-V2.5-Pro：据 xreach 和 IQS 搜索结果，该模型在 Arena 文字榜达到开源模型第一、全球第六（与 muse-spark 位置相当），Agent 专项指数开源第一。
GLM-5.1（智谱）：代码榜第五，1534 分，是目前在代码 Arena 排名最高的中国模型。

开源模型与闭源第一名的分差从一年前的 50+ 分缩小到 15-20 分区间，这意味着在真实用户场景下，开源模型的可用性正在接近闭源旗舰。

格局判断

当前的 Arena 榜单反映了一个三极格局：Anthropic 在文字和代码两个维度同时领先，Google 以 Gemini 系列稳定保持第二梯队，OpenAI 的 GPT-5.5 在 Arena 众包评价中并未重现过去的统治地位。开源阵营中，Meta 和中国模型正在缩小差距，但距离全面超越闭源旗舰仍有距离。

对于读者来说，如果你需要一个在对话和代码上都稳定的模型，Claude Opus 4.7 仍然是首选。如果更关注性价比和可控性，小米 MiMo-V2.5-Pro 和 GLM-5.1 值得试用。

主要来源：

文字榜 Top 10：Anthropic 四席包揽

代码榜：Anthropic 统治力更强

开源模型的进展

格局判断

相关内容

Kimi K2.6 登顶 Design Arena：月之暗面在 3D 设计领域超越所有美国模型

Qwen 3.6 Max BS Benchmark 评测：反幻觉能力超越所有 OpenAI 模型

Oxford/LLNL 链式推理基准：GPT 单项 95.7%，串联后暴跌至 9.83%