Baidu ERNIE 5.1 Preview дебютировал в Arena на #13, возглавил категорию права

Ключевая оценка

Baidu идёт совершенно другим путём, чем конкуренты — соревнуясь не в масштабе параметров, а в стоимости вывода. Выпуск ERNIE 5.1 Preview标志着中国大模型进入”后参数量竞赛”时代.

В LMSYS Arena модель дебютировала на #13 с Elo 1476, сжав параметры до примерно одной трети от предыдущей версии (v5.0, 2.4 триллиона параметров), активные параметры сокращены вдвое. Это “похудение” — не снижение производительности, а результат архитектуры MoE и асинхронного обучения с подкреплением.

Что произошло

30 апреля ERNIE 5.1 Preview тихо появился в LMSYS Chatbot Arena. Без пресс-конференций, без масштабного PR — просто появился в рейтинге. Такой подход “quiet launch” редок среди китайских LLM-компаний.

На момент публикации модель набрала 3560 голосов в боях, Elo-рейтинг 1476 ± 10, занимая #13 в мире.

Детали рейтинга Arena

Показатель	Значение
Мировой рейтинг	#13
Elo	1476 ± 10
Голосов	3,560
Тип модели	Закрытая / Proprietary
Статус	Preview

Рейтинги по категориям

ERNIE 5.1 Preview ещё более впечатляющ в细分ных категориях:

Категория	Мировой рейтинг
⚖️ Право и госуправление	#1
💼 Бизнес и финансы	#4
💻 ПО и IT-услуги	#7
📐 Математика	#9

Первое место в категории права напрямую связано с многолетним накоплением данных Baidu в китайских правовых документах и государственных сценариях.

Технические особенности: почему меньше параметров — выше рейтинг?

ERNIE 5.0 (ноябрь 2025, Baidu World) — мультимодальная модель на 2.4 триллиона параметров. 5.1 Preview достигла значительного “похудения”:

Сжатие параметров

Общее количество: сжато до ~1/3 от 5.0
Активные параметры: сжато до ~1/2 от 5.0
Стоимость обучения: всего ~6% от аналогичных моделей

Ключевые технологии

1. Разделённое полностью асинхронное обучение с подкреплением

Традиционное RLHF требует синхронных циклов выборки-оценки-обновления, что неэффективно. ERNIE 5.1 использует разделённую архитектуру: сбор данных, вычисление вознаграждения и обновление модели работают полностью асинхронно и параллельно, значительно увеличивая пропускную способность обучения.

2. Масштабированное постобучение агентских способностей (Scaled Agentic Post-Training)

5.1 внедряет масштабированное обучение агентским способностям — не просто “отвечать на вопросы”, а “вызывать инструменты, планировать задачи, автономно выполнять”. Это выделяет модель в сценариях, требующих рассуждений и использования инструментов (кодирование, бизнес-анализ).

3. Оптимизация архитектуры MoE

Механизм маршрутизации Mixture of Experts гарантирует активацию только ~15-20% параметров на токен. В сочетании со смешанной точностью INT4/FP8 использование VRAM снижено на ~50%, потеря точности控制在 1.2%以内.

Сравнение с моделями-аналогами

В диапазоне #10-16 LMSYS Arena конкуренты ERNIE 5.1 Preview включают:

Модель	Позиционирование
Claude 3.5 Sonnet	Закрытая, сильное рассуждение
Qwen-Max / Qwen2.5-72B	Open-source 70B флагман
Mixtral 8x22B	Пионер MoE-подхода
ERNIE 5.1 Preview	Сжатый MoE + китайское преимущество

Уникальное позиционирование ERNIE 5.1: достичь производительности, близкой к флагманам, с меньшими вычислительными ресурсами, создавая дифференцированное лидерство в китайских вертикальных доменах.

Снижение цен API и позиционирование для предприятий

По данным AIBase, цены API ERNIE 5.1 снижены на ~40% по сравнению с v4.0. Preview-версия доступна через консоль Baidu Cloud, полный коммерческий релиз ожидается в Q3 2026.

Анализ 36Kr отмечает: “Ключ ERNIE 5.1 — не масштаб параметров, а стоимость вывода. Для SME и отраслевых сценариев тонкой настройки технология сжатия 5.1 значительно снижает порог приватного развёртывания.”

Отраслевой ландшафт

Первая половина 2026 года ознаменовала новый этап конкуренции китайских LLM:

Qwen (Alibaba): Открытый маршрут, Qwen2.5-72B стабильно в топе Arena
Kimi (Moonshot AI): K2.6 атакует в программировании, крипто-капитал входит
ERNIE (Baidu): От “гонки параметров” к “гонке эффективности”, фокус на предприятия
DeepSeek: V4 адаптируется к экосистеме Ascend, национальный маршрут

Тихий запуск ERNIE 5.1 Preview сам по себе сигнал — Baidu больше не нуждается в пресс-конференциях для самодоказательства, позволяя рейтингам Arena говорить за себя.

Ключевая оценка

Что произошло

Детали рейтинга Arena

Рейтинги по категориям

Технические особенности: почему меньше параметров — выше рейтинг?

Сжатие параметров

Ключевые технологии

Сравнение с моделями-аналогами

Снижение цен API и позиционирование для предприятий

Отраслевой ландшафт

Рекомендации

Похожие материалы

OpenAI Workspace Agents запуск: от личного чата к командной автоматизации, сдвиг парадигмы ChatGPT

DeepSeek V4 Flash обзор: Вызов инструментов значительно улучшен, многошаговые рабочие процессы одним промптом

Alibaba Qwen3.6-Max-Preview возглавил рейтинг отечественных моделей, значительно улучшены возможности агентного программирования