C
ChaoBro

小米MiMo-V2.5-ProがGDPval-AAベンチマークで首位、中国オープンソースモデルの勢力図が再編

小米MiMo-V2.5-ProがGDPval-AAベンチマークで首位、中国オープンソースモデルの勢力図が再編

核心結論

GDPval-AA最新の実世界エージェントワークロードベンチマーク結果が発表され、小米MiMo-V2.5-Proが1578点で1位を獲得し、DeepSeekの評価連覇に終止符を打った。中国トップ5のオープンソースモデルのスコア差は94点以内に縮まり、競争構造は「一強時代」から「群雄割拠」へと移行している。

モデルGDPval-AAスコアランクリリース日
小米MiMo-V2.5-Pro157812026.05
DeepSeek V4 Pro155422026.04
GLM 5.1153532026.04
MiniMax M2.7151442026.04
Kimi K2.6148452026.04

何が起こったのか

GDPval-AAは実世界のエージェント能力に焦点を当てたベンチマークだ。従来の知識クイズや択一テストとは異なり、実践的なタスクにおける計画立案、ツール呼び出し、多段階推論の能力を評価する。

MiMo-V2.5-Proのトップ獲得には、いくつかの重要なシグナルがある:

第一に、スマートフォンメーカーが基盤モデル戦線に参入した。 小米のAI分野での存在感は、これまでエンドユーザー向けアプリ(スマホAIアシスタント、IoTデバイス)が中心で、MiMoシリーズは自社エコシステムの配套モデルとしての役割が主だった。V2.5-Proがオープンソースベンチマークの上位に食い込んだことは、スマホメーカーが「AIアプリ層」から「基盤モデル層」へ浸透しつつあることを意味する。

第二に、5強のスコア差はわずか94点。 最高点1578点と5位1484点の差はわずか6%。つまり、この評価軸において中国のトップオープンソースモデルは**「絶対的王者不在」の競争フェーズ**に入った。ユーザーの選択はベンチマークスコアだけで決まるものではなくなり、API価格、コンテキストウィンドウ、推論速度など総合的な要因で判断されるようになった。

ベンチマーク横断比較:異なる次元、異なる勝者

GDPval-AAは評価パズルの一部に過ぎない。複数の独立ベンチマークを総合すると、5強モデルはそれぞれ得意分野が異なる:

モデルGDPval-AASWE-benchコード能力中国語能力優勢シーン
MiMo-V2.5-Pro1578中上エージェントワークフロー
DeepSeek V4 Pro1554全シーンバランス型
GLM 5.11535ツール呼び出し+中国語
MiniMax M2.71514マルチモーダル
Kimi K2.61484极高极高コード生成

Kimi K2.6はGDPval-AAで最下位だが、SWE-bench(ソフトウェアエンジニアリングベンチマーク)では突出している――これは異なるベンチマークが異なる能力次元を反映しており、モデル選定は単一のスコアではなく具体的なシーンに応じて行う必要があることを示している。

勢力図の判断

**2026年5月は中国オープンソースモデルの「スーパーリリース月」**だ。上記5モデルに加え、MiniMax M3も控えている。このタイミングでの集中リリースは偶然ではない――各社はGoogle I/O(5月中旬)とAnthropic開発者会議(5月6日)の前に製品のポジショニングを完了しようとしている。

開発者とエンタープライズユーザーにとって、現在は**「選択困難だが最高の評価ウィンドウ」**である:

  • 最も強力なエージェントワークフロー能力が必要 → MiMo-V2.5-Proが現状の首选
  • コード+中国語+ツールの総合バランスが必要 → DeepSeek V4 ProまたはGLM 5.1
  • ソフトウェアエンジニアリングシーンに焦点 → Kimi K2.6がSWE-benchで依然最強
  • マルチモーダル能力が必要 → MiniMax M2.7のテスト価値あり

アクションアイテム

  1. 単一のベンチマークに依存しない:GDPval-AAはエージェント能力、SWE-benchはコード、LMArenaはユーザー体感に焦点。実際の使用シーンに合ったベンチマークを参照すること。
  2. 自分でベンチマークを実行する:各モデルは特定の分野でベンチマークがカバーしていない優位性を持つ可能性がある。自身のタスクセットでA/Bテストを行うこと。
  3. API価格戦争に注目する:モデル能力が接近した後、価格が主要な差別化要因になる。DeepSeekはすでにAPI値下げを開始しており、他社の追随が予想される。