百度ERNIE 5.1 PreviewがArenaに登場、世界13位、法分野で1位を獲得

コア評価

百度は競合他社とは全く異なる道を歩んでいる——パラメータ規模ではなく、推論コストパフォーマンスで勝負する。ERNIE 5.1 Previewのリリースは、中国LLMが「パラメータ競争後」の時代に入ったことを示している。

LMSYS Arenaで世界13位、Elo 1476を記録しながら、パラメータを前身（v5.0、2.4兆パラメータ）の約3分の1に圧縮。アクティブパラメータは半分に削減されている。この「スリム化」は性能低下ではなく、MoE（Mixture of Experts）アーキテクチャと非同期強化学習のイテレーションの結果である。

何があったか

4月30日、ERNIE 5.1 PreviewがLMSYS Chatbot Arenaにひっそり登場。記者会見もなく、大規模なPRもなく、ランキングボードに直接現れた——この「quiet launch」アプローチは中国LLM企業では珍しい。

公開時点で、本モデルは3,560票のバトルデータを獲得し、Eloスコア1476 ± 10で世界13位にランクインしている。

Arena ランキング詳細

指標	値
世界総合ランク	#13
Elo スコア	1476 ± 10
バトル票数	3,560
モデルタイプ	クローズド / Proprietary
ステータス	Preview

カテゴリ別ランキング

ERNIE 5.1 Previewは細分化されたカテゴリでさらに際立ったパフォーマンスを示している：

カテゴリ	世界ランク
⚖️ 法律・政府	#1
💼 ビジネス・金融	#4
💻 ソフトウェア・ITサービス	#7
📐 数学	#9

法律分野で世界1位を獲得したことは、百度が長年にわたり中国語コーパス、法律文書、行政シーンで蓄積してきたデータと直接関係している。

技術的ハイライト：なぜパラメータ削減でランキングが上がるのか？

ERNIE 5.0（2025年11月百度Worldで発表）は2.4兆パラメータの統一マルチモーダルモデルだった。5.1 Previewはこの大幅な「スリム化」を実現：

パラメータ圧縮

総パラメータ：5.0の約1/3に圧縮
アクティブパラメータ：5.0の約1/2に圧縮
トレーニングコスト：同等モデルの約6%

主要技術

1. 分離型非同期強化学習

従来のRLHFトレーニングはサンプリング-評価-更新の同期ループが必要で、効率が低い。ERNIE 5.1は分離型アーキテクチャを採用：データ収集、報酬計算、モデル更新の3つの工程が完全に非同期並列で動作し、トレーニングスループットが大幅に向上。

2. 大規模エージェント後トレーニング（Scaled Agentic Post-Training）

5.1は後トレーニング段階でエージェント能力の大規模トレーニングを導入——単に「質問に答える」だけでなく、「ツール呼び出し、タスク計画、自律実行」を学習する。これにより、推論とツール使用が必要なシーン（コーディング、ビジネス分析）で優れたパフォーマンスを発揮。

3. MoEアーキテクチャ最適化

Mixture of Expertsルーティングメカニズムにより、トークンごとに約15-20%のパラメータのみがアクティブ化される。INT4/FP8混合精度推論と組み合わせ、VRAM使用量を約50%削減、精度低下は1.2%以内に制御。

競合モデルとの比較

LMSYS Arenaの10-16位区间で、ERNIE 5.1 Previewの競合には以下が含まれる：

モデル（代表例）	ポジショニング
Claude 3.5 Sonnet バリアント	クローズド強力推論
Qwen-Max / Qwen2.5-72B	オープンソース 70B フラッグシップ
Mixtral 8x22B	MoE ルートパイオニア
ERNIE 5.1 Preview	圧縮MoE + 中国語優位性

ERNIE 5.1の独自ポジショニング：より少ない計算リソースでフラッグシップモデルに近い総合性能を達成しつつ、中国語垂直分野（法律、行政、ビジネス）で差別化されたリーダーシップを構築。

API価格引き下げとエンタープライズポジショニング

AIBaseの報道によると、ERNIE 5.1のAPI価格はv4.0と比較して約40%引き下げられている。Previewバージョンは百度スマートクラウドコンソール経由でアクセス可能で、完全商用展開は2026年Q3を予定。

36Krの分析は指摘する：「ERNIE 5.1の核心はパラメータ規模ではなく推論コストパフォーマンス。中小企業や業界特化ファインチューニングシーンにおいて、5.1の圧縮技術はプライベートデプロイのハードルを大幅に引き下げている。」

業界 landscape

2026年上半期の中国LLM競争は新段階に入っている：

Qwen（アリババ）：オープンソース路線継続、Qwen2.5-72BがArena上位を堅持
Kimi（Moonshot AI）：K2.6がプログラミングSOTAで攻撃、暗号資本参入
ERNIE（百度）：「パラメータ競争」から「コスト競争」へ、エンタープライズ落地に注力
DeepSeek：V4がAscendエコシステムに適応、国産化ルート

ERNIE 5.1 Previewのquiet launch自体が1つのシグナル——百度はもはや記者会見で自分を証明する必要はなく、Arenaランキングで語らせている。

アクションアイテム

企業ユーザー：5.1のAPI価格引き下げ後のプライベートデプロイコストに注目、特に法律、行政、金融シーン
開発者：PreviewバージョンはLMSYSで体験可能 — Qwen-MaxやKimi K2.6との実使用比較を推奨
業界ウォッチャー：Q3正式版リリース時、圧縮技術がより多くのベンチマークで競争力を維持できるかに注目