コア評価
百度は競合他社とは全く異なる道を歩んでいる——パラメータ規模ではなく、推論コストパフォーマンスで勝負する。ERNIE 5.1 Previewのリリースは、中国LLMが「パラメータ競争後」の時代に入ったことを示している。
LMSYS Arenaで世界13位、Elo 1476を記録しながら、パラメータを前身(v5.0、2.4兆パラメータ)の約3分の1に圧縮。アクティブパラメータは半分に削減されている。この「スリム化」は性能低下ではなく、MoE(Mixture of Experts)アーキテクチャと非同期強化学習のイテレーションの結果である。
何があったか
4月30日、ERNIE 5.1 PreviewがLMSYS Chatbot Arenaにひっそり登場。記者会見もなく、大規模なPRもなく、ランキングボードに直接現れた——この「quiet launch」アプローチは中国LLM企業では珍しい。
公開時点で、本モデルは3,560票のバトルデータを獲得し、Eloスコア1476 ± 10で世界13位にランクインしている。
Arena ランキング詳細
| 指標 | 値 |
|---|---|
| 世界総合ランク | #13 |
| Elo スコア | 1476 ± 10 |
| バトル票数 | 3,560 |
| モデルタイプ | クローズド / Proprietary |
| ステータス | Preview |
カテゴリ別ランキング
ERNIE 5.1 Previewは細分化されたカテゴリでさらに際立ったパフォーマンスを示している:
| カテゴリ | 世界ランク |
|---|---|
| ⚖️ 法律・政府 | #1 |
| 💼 ビジネス・金融 | #4 |
| 💻 ソフトウェア・ITサービス | #7 |
| 📐 数学 | #9 |
法律分野で世界1位を獲得したことは、百度が長年にわたり中国語コーパス、法律文書、行政シーンで蓄積してきたデータと直接関係している。
技術的ハイライト:なぜパラメータ削減でランキングが上がるのか?
ERNIE 5.0(2025年11月百度Worldで発表)は2.4兆パラメータの統一マルチモーダルモデルだった。5.1 Previewはこの大幅な「スリム化」を実現:
パラメータ圧縮
- 総パラメータ:5.0の約1/3に圧縮
- アクティブパラメータ:5.0の約1/2に圧縮
- トレーニングコスト:同等モデルの約6%
主要技術
1. 分離型非同期強化学習
従来のRLHFトレーニングはサンプリング-評価-更新の同期ループが必要で、効率が低い。ERNIE 5.1は分離型アーキテクチャを採用:データ収集、報酬計算、モデル更新の3つの工程が完全に非同期並列で動作し、トレーニングスループットが大幅に向上。
2. 大規模エージェント後トレーニング(Scaled Agentic Post-Training)
5.1は後トレーニング段階でエージェント能力の大規模トレーニングを導入——単に「質問に答える」だけでなく、「ツール呼び出し、タスク計画、自律実行」を学習する。これにより、推論とツール使用が必要なシーン(コーディング、ビジネス分析)で優れたパフォーマンスを発揮。
3. MoEアーキテクチャ最適化
Mixture of Expertsルーティングメカニズムにより、トークンごとに約15-20%のパラメータのみがアクティブ化される。INT4/FP8混合精度推論と組み合わせ、VRAM使用量を約50%削減、精度低下は1.2%以内に制御。
競合モデルとの比較
LMSYS Arenaの10-16位区间で、ERNIE 5.1 Previewの競合には以下が含まれる:
| モデル(代表例) | ポジショニング |
|---|---|
| Claude 3.5 Sonnet バリアント | クローズド強力推論 |
| Qwen-Max / Qwen2.5-72B | オープンソース 70B フラッグシップ |
| Mixtral 8x22B | MoE ルートパイオニア |
| ERNIE 5.1 Preview | 圧縮MoE + 中国語優位性 |
ERNIE 5.1の独自ポジショニング:より少ない計算リソースでフラッグシップモデルに近い総合性能を達成しつつ、中国語垂直分野(法律、行政、ビジネス)で差別化されたリーダーシップを構築。
API価格引き下げとエンタープライズポジショニング
AIBaseの報道によると、ERNIE 5.1のAPI価格はv4.0と比較して約40%引き下げられている。Previewバージョンは百度スマートクラウドコンソール経由でアクセス可能で、完全商用展開は2026年Q3を予定。
36Krの分析は指摘する:「ERNIE 5.1の核心はパラメータ規模ではなく推論コストパフォーマンス。中小企業や業界特化ファインチューニングシーンにおいて、5.1の圧縮技術はプライベートデプロイのハードルを大幅に引き下げている。」
業界 landscape
2026年上半期の中国LLM競争は新段階に入っている:
- Qwen(アリババ):オープンソース路線継続、Qwen2.5-72BがArena上位を堅持
- Kimi(Moonshot AI):K2.6がプログラミングSOTAで攻撃、暗号資本参入
- ERNIE(百度):「パラメータ競争」から「コスト競争」へ、エンタープライズ落地に注力
- DeepSeek:V4がAscendエコシステムに適応、国産化ルート
ERNIE 5.1 Previewのquiet launch自体が1つのシグナル——百度はもはや記者会見で自分を証明する必要はなく、Arenaランキングで語らせている。
アクションアイテム
- 企業ユーザー:5.1のAPI価格引き下げ後のプライベートデプロイコストに注目、特に法律、行政、金融シーン
- 開発者:PreviewバージョンはLMSYSで体験可能 — Qwen-MaxやKimi K2.6との実使用比較を推奨
- 業界ウォッチャー:Q3正式版リリース時、圧縮技術がより多くのベンチマークで競争力を維持できるかに注目