Chatbot Arena 2026年4月:Anthropic 包揽前四,开源与闭源差距缩小

Chatbot Arena 2026年4月:Anthropic 包揽前四,开源与闭源差距缩小

截至 2026 年 4 月底,LMSYS Chatbot Arena 的最新排行榜呈现一个清晰格局:Anthropic 在文字和代码两个主赛道上同时领跑,但开源阵营的追赶速度显著加快。

文字榜 Top 10:Anthropic 四席包揽

Arena 文字总榜的前十名如下(Elo 分数,越高越好):

排名模型分数实验室
1claude-opus-4-7-thinking1503 ±8Anthropic
2claude-opus-4-6-thinking1501 ±5Anthropic
3claude-opus-4-61496 ±5Anthropic
4claude-opus-4-71493 ±7Anthropic
5gemini-3.1-pro-preview1493 ±5Google
6muse-spark1489 ±7Meta
7gpt-5.5-high1488 ±10OpenAI
8gemini-3-pro1486 ±4Google
9grok-4.20-beta11481 ±5xAI
10gpt-5.4-high1479 ±6OpenAI

四个关键点值得关注:

Anthropic 的 thinking 模式优势明显。 claude-opus-4-7-thinking 以 1503 分位列第一,比不带 thinking 的同版本(1493 分)高出 10 分。这种差距在代码榜上更为显著——thinking 模式在代码榜上达到 1571 分,比不带 thinking 的版本高出 6 分。

OpenAI GPT-5.5 排名不及预期。 gpt-5.5-high 以 1488 分排在第七位,落后于 Claude 全系和 Gemini 3.1 Pro。考虑到 GPT-5.5 是 OpenAI 最新的旗舰模型,这个排名说明在 Arena 的众包对战机制下,它的对话体验没有形成压倒性优势。不过误差范围 ±10 是所有 Top 10 模型中最大的,说明用户评价分歧也最大。

Meta muse-spark 首次进入文字榜 Top 6。 这款 Meta 新模型以 1489 分超过 GPT-5.5,成为文字榜排名最高的非 Anthropic/Google 模型。如果后续确认其开源属性,它将成为当前最强的开源文字模型。

Google 双子星稳定但缺乏突破。 gemini-3.1-pro-preview(1493)和 gemini-3-pro(1486)分列第五和第八,分数差距不大,说明 Gemini 3.1 Pro 相对 3.0 的提升在用户侧感知有限。

代码榜:Anthropic 统治力更强

代码 Arena 的差距更为悬殊:

排名模型分数
1claude-opus-4-7-thinking1571
2claude-opus-4-71565
3claude-opus-4-6-thinking1551
4claude-opus-4-61548
5glm-5.11534
6kimi-k2.61529
7claude-sonnet-4-61525
8muse-spark1510
9gpt-5.5-high (codex-harness)1500
10claude-opus-4-5-thinking-32k1491

代码榜上 Anthropic 的优势更加突出——前四名全部是 Claude,且 thinking 模式和非 thinking 模式形成了两个梯队。GLM-5.1 和 Kimi-K2.6 分别以 1534 和 1529 分占据第五、第六,是中国模型在代码榜上的最佳表现。

值得注意的是,GPT-5.5 在代码榜上必须依赖 Codex harness(工具调用框架)才能达到 1500 分,裸跑版本的排名更低。这说明在纯代码生成和编辑场景下,GPT-5.5 需要额外的工程集成才能发挥最佳效果。

开源模型的进展

虽然 Arena 官方没有标注开源/闭源标签,但结合已知信息:

  • muse-spark(Meta):如果确认开源,1489 分的文字榜成绩和 1510 分的代码榜成绩都超过了 GPT-5.5。
  • 小米 MiMo-V2.5-Pro:据 xreach 和 IQS 搜索结果,该模型在 Arena 文字榜达到开源模型第一、全球第六(与 muse-spark 位置相当),Agent 专项指数开源第一。
  • GLM-5.1(智谱):代码榜第五,1534 分,是目前在代码 Arena 排名最高的中国模型。

开源模型与闭源第一名的分差从一年前的 50+ 分缩小到 15-20 分区间,这意味着在真实用户场景下,开源模型的可用性正在接近闭源旗舰。

格局判断

当前的 Arena 榜单反映了一个三极格局:Anthropic 在文字和代码两个维度同时领先,Google 以 Gemini 系列稳定保持第二梯队,OpenAI 的 GPT-5.5 在 Arena 众包评价中并未重现过去的统治地位。开源阵营中,Meta 和中国模型正在缩小差距,但距离全面超越闭源旗舰仍有距离。

对于读者来说,如果你需要一个在对话和代码上都稳定的模型,Claude Opus 4.7 仍然是首选。如果更关注性价比和可控性,小米 MiMo-V2.5-Pro 和 GLM-5.1 值得试用。


主要来源: