結論
2026年4月末時点、世界のAIモデルランキングは「二榜双雄」の構図:LMArenaではAnthropicが首位、Artificial Analysis総合指数ではOpenAIのGPT-5.5シリーズがリード。
LMArena Elo:ユーザー投票の「体感ランキング」
| 順位 | モデル | Elo | ベンダー |
|---|---|---|---|
| 1 | Opus 4.7 (thinking) | 1503 | Anthropic |
| 2 | Claude Opus 4.6 (thinking) | 1503 | Anthropic |
| 3 | Claude Opus 4.6 | 1496 | Anthropic |
| 4 | Opus 4.7 | 1494 | Anthropic |
| 5 | Gemini 3.1 Pro Preview | 1493 | Google DeepMind |
| 6 | Muse Spark | 1492 | Meta AI |
重要なシグナル:Anthropicが上位4席中3席を占める。Meta Muse Sparkが初めてトップ10入り。
AA総合指数:標準化ベンチマークの「実力ランキング」
| 順位 | モデル | 得点 | ベンダー |
|---|---|---|---|
| 1 | GPT-5.5 (xhigh) | 60 | OpenAI |
| 2 | GPT-5.5 (high) | 59 | OpenAI |
| 3 | Opus 4.7 (max) | 57 | Anthropic |
| 4 | Gemini 3.1 Pro Preview | 57 | Google DeepMind |
| 7 | Kimi K2.6 | 54 | Moonshot AI |
| 8 | MiMo-V2.5-Pro | 54 | Xiaomi |
| 10 | Muse Spark | 52 | Meta AI |
重要なシグナル:GPT-5.5シリーズが上位2席を独占、上位6席中4席を占める。Kimi K2.6がトップ10入り。
選択ガイド
- 総合ベンチマーク最強:GPT-5.5 (xhigh)、AAスコア60
- ユーザー体験最良:Claude Opus 4.7 (thinking)、LMArena 1503 Elo
- コスパ重視:GPT-5.5 (medium)、AA 57点で低価格
- 中国モデル注目:Kimi K2.6、54点でトップ10
- オープンソース:Muse Spark(Meta)、52点