2026年4月末現在、LMSYS Chatbot Arenaの最新ランキングは明確な構図を示している:Anthropicがテキストとコードの両トラックでリードする一方、オープンソース阵营の追い上げが加速している。
テキストTop 10:Anthropicが4枠を独占
ArenaテキストリーダーボードのTop 10(Eloスコア、高いほど良い):
| 順位 | モデル | スコア | ラボ |
|---|---|---|---|
| 1 | claude-opus-4-7-thinking | 1503 ±8 | Anthropic |
| 2 | claude-opus-4-6-thinking | 1501 ±5 | Anthropic |
| 3 | claude-opus-4-6 | 1496 ±5 | Anthropic |
| 4 | claude-opus-4-7 | 1493 ±7 | Anthropic |
| 5 | gemini-3.1-pro-preview | 1493 ±5 | |
| 6 | muse-spark | 1489 ±7 | Meta |
| 7 | gpt-5.5-high | 1488 ±10 | OpenAI |
| 8 | gemini-3-pro | 1486 ±4 | |
| 9 | grok-4.20-beta1 | 1481 ±5 | xAI |
| 10 | gpt-5.4-high | 1479 ±6 | OpenAI |
4つの重要な観察ポイント:
Anthropicのthinkingモードが明確な優位性を示す。 claude-opus-4-7-thinkingが1503で1位、thinkingなしの同バージョン(1493)より10ポイント高い。コードリーダーボードではこの差がさらに顕著で、thinkingモードは1571に達する。
OpenAI GPT-5.5が期待を下回る。 gpt-5.5-highが1488で7位、Claude全バリアントとGemini 3.1 Proに後れを取る。±10の誤差範囲はTop 10中で最大、ユーザー評価のばらつきが最も大きいことを示す。
Meta muse-sparkが初めてTop 6入り。 1489でGPT-5.5を上回り、Anthropic/Google以外で最高位のモデルとなった。
Googleの双子は安定だがブレイクスルーなし。 gemini-3.1-pro-preview(1493)とgemini-3-pro(1486)の差が小さく、3.0から3.1 Proへの改善がユーザー側で限定的であることを示唆。
コードリーダーボード:Anthropicの支配力がより強い
| 順位 | モデル | スコア |
|---|---|---|
| 1 | claude-opus-4-7-thinking | 1571 |
| 2 | claude-opus-4-7 | 1565 |
| 3 | claude-opus-4-6-thinking | 1551 |
| 4 | claude-opus-4-6 | 1548 |
| 5 | glm-5.1 | 1534 |
| 6 | kimi-k2.6 | 1529 |
| 7 | claude-sonnet-4-6 | 1525 |
| 8 | muse-spark | 1510 |
| 9 | gpt-5.5-high (codex-harness) | 1500 |
| 10 | claude-opus-4-5-thinking-32k | 1491 |
GLM-5.1とKimi-K2.6はそれぞれ1534と1529で、コードArenaにおける中国モデルの最高成績を記録している。
オープンソースの進捗
オープンソース1位とクローズドソース1位のスコア差は1年前の50+ポイントから15-20ポイントに縮小。実世界でのユーザビリティにおいて、オープンソースモデルがクローズドソースフラッグシップに近づいている。
主要ソース: