百度ERNIE 5.1 PreviewがArenaに登場、世界13位、法分野で1位を獲得

百度ERNIE 5.1 PreviewがArenaに登場、世界13位、法分野で1位を獲得

コア評価

百度は競合他社とは全く異なる道を歩んでいる——パラメータ規模ではなく、推論コストパフォーマンスで勝負する。ERNIE 5.1 Previewのリリースは、中国LLMが「パラメータ競争後」の時代に入ったことを示している。

LMSYS Arenaで世界13位、Elo 1476を記録しながら、パラメータを前身(v5.0、2.4兆パラメータ)の約3分の1に圧縮。アクティブパラメータは半分に削減されている。この「スリム化」は性能低下ではなく、MoE(Mixture of Experts)アーキテクチャと非同期強化学習のイテレーションの結果である。

何があったか

4月30日、ERNIE 5.1 PreviewがLMSYS Chatbot Arenaにひっそり登場。記者会見もなく、大規模なPRもなく、ランキングボードに直接現れた——この「quiet launch」アプローチは中国LLM企業では珍しい。

公開時点で、本モデルは3,560票のバトルデータを獲得し、Eloスコア1476 ± 10で世界13位にランクインしている。

Arena ランキング詳細

指標
世界総合ランク#13
Elo スコア1476 ± 10
バトル票数3,560
モデルタイプクローズド / Proprietary
ステータスPreview

カテゴリ別ランキング

ERNIE 5.1 Previewは細分化されたカテゴリでさらに際立ったパフォーマンスを示している:

カテゴリ世界ランク
⚖️ 法律・政府#1
💼 ビジネス・金融#4
💻 ソフトウェア・ITサービス#7
📐 数学#9

法律分野で世界1位を獲得したことは、百度が長年にわたり中国語コーパス、法律文書、行政シーンで蓄積してきたデータと直接関係している。

技術的ハイライト:なぜパラメータ削減でランキングが上がるのか?

ERNIE 5.0(2025年11月百度Worldで発表)は2.4兆パラメータの統一マルチモーダルモデルだった。5.1 Previewはこの大幅な「スリム化」を実現:

パラメータ圧縮

  • 総パラメータ:5.0の約1/3に圧縮
  • アクティブパラメータ:5.0の約1/2に圧縮
  • トレーニングコスト:同等モデルの約6%

主要技術

1. 分離型非同期強化学習

従来のRLHFトレーニングはサンプリング-評価-更新の同期ループが必要で、効率が低い。ERNIE 5.1は分離型アーキテクチャを採用:データ収集、報酬計算、モデル更新の3つの工程が完全に非同期並列で動作し、トレーニングスループットが大幅に向上。

2. 大規模エージェント後トレーニング(Scaled Agentic Post-Training)

5.1は後トレーニング段階でエージェント能力の大規模トレーニングを導入——単に「質問に答える」だけでなく、「ツール呼び出し、タスク計画、自律実行」を学習する。これにより、推論とツール使用が必要なシーン(コーディング、ビジネス分析)で優れたパフォーマンスを発揮。

3. MoEアーキテクチャ最適化

Mixture of Expertsルーティングメカニズムにより、トークンごとに約15-20%のパラメータのみがアクティブ化される。INT4/FP8混合精度推論と組み合わせ、VRAM使用量を約50%削減、精度低下は1.2%以内に制御。

競合モデルとの比較

LMSYS Arenaの10-16位区间で、ERNIE 5.1 Previewの競合には以下が含まれる:

モデル(代表例)ポジショニング
Claude 3.5 Sonnet バリアントクローズド強力推論
Qwen-Max / Qwen2.5-72Bオープンソース 70B フラッグシップ
Mixtral 8x22BMoE ルートパイオニア
ERNIE 5.1 Preview圧縮MoE + 中国語優位性

ERNIE 5.1の独自ポジショニング:より少ない計算リソースでフラッグシップモデルに近い総合性能を達成しつつ、中国語垂直分野(法律、行政、ビジネス)で差別化されたリーダーシップを構築

API価格引き下げとエンタープライズポジショニング

AIBaseの報道によると、ERNIE 5.1のAPI価格はv4.0と比較して約40%引き下げられている。Previewバージョンは百度スマートクラウドコンソール経由でアクセス可能で、完全商用展開は2026年Q3を予定。

36Krの分析は指摘する:「ERNIE 5.1の核心はパラメータ規模ではなく推論コストパフォーマンス。中小企業や業界特化ファインチューニングシーンにおいて、5.1の圧縮技術はプライベートデプロイのハードルを大幅に引き下げている。」

業界 landscape

2026年上半期の中国LLM競争は新段階に入っている:

  • Qwen(アリババ):オープンソース路線継続、Qwen2.5-72BがArena上位を堅持
  • Kimi(Moonshot AI):K2.6がプログラミングSOTAで攻撃、暗号資本参入
  • ERNIE(百度):「パラメータ競争」から「コスト競争」へ、エンタープライズ落地に注力
  • DeepSeek:V4がAscendエコシステムに適応、国産化ルート

ERNIE 5.1 Previewのquiet launch自体が1つのシグナル——百度はもはや記者会見で自分を証明する必要はなく、Arenaランキングで語らせている。

アクションアイテム

  • 企業ユーザー:5.1のAPI価格引き下げ後のプライベートデプロイコストに注目、特に法律、行政、金融シーン
  • 開発者:PreviewバージョンはLMSYSで体験可能 — Qwen-MaxやKimi K2.6との実使用比較を推奨
  • 業界ウォッチャー:Q3正式版リリース時、圧縮技術がより多くのベンチマークで競争力を維持できるかに注目