Ключевая оценка
Baidu идёт совершенно другим путём, чем конкуренты — соревнуясь не в масштабе параметров, а в стоимости вывода. Выпуск ERNIE 5.1 Preview标志着中国大模型进入”后参数量竞赛”时代.
В LMSYS Arena модель дебютировала на #13 с Elo 1476, сжав параметры до примерно одной трети от предыдущей версии (v5.0, 2.4 триллиона параметров), активные параметры сокращены вдвое. Это “похудение” — не снижение производительности, а результат архитектуры MoE и асинхронного обучения с подкреплением.
Что произошло
30 апреля ERNIE 5.1 Preview тихо появился в LMSYS Chatbot Arena. Без пресс-конференций, без масштабного PR — просто появился в рейтинге. Такой подход “quiet launch” редок среди китайских LLM-компаний.
На момент публикации модель набрала 3560 голосов в боях, Elo-рейтинг 1476 ± 10, занимая #13 в мире.
Детали рейтинга Arena
| Показатель | Значение |
|---|---|
| Мировой рейтинг | #13 |
| Elo | 1476 ± 10 |
| Голосов | 3,560 |
| Тип модели | Закрытая / Proprietary |
| Статус | Preview |
Рейтинги по категориям
ERNIE 5.1 Preview ещё более впечатляющ в细分ных категориях:
| Категория | Мировой рейтинг |
|---|---|
| ⚖️ Право и госуправление | #1 |
| 💼 Бизнес и финансы | #4 |
| 💻 ПО и IT-услуги | #7 |
| 📐 Математика | #9 |
Первое место в категории права напрямую связано с многолетним накоплением данных Baidu в китайских правовых документах и государственных сценариях.
Технические особенности: почему меньше параметров — выше рейтинг?
ERNIE 5.0 (ноябрь 2025, Baidu World) — мультимодальная модель на 2.4 триллиона параметров. 5.1 Preview достигла значительного “похудения”:
Сжатие параметров
- Общее количество: сжато до ~1/3 от 5.0
- Активные параметры: сжато до ~1/2 от 5.0
- Стоимость обучения: всего ~6% от аналогичных моделей
Ключевые технологии
1. Разделённое полностью асинхронное обучение с подкреплением
Традиционное RLHF требует синхронных циклов выборки-оценки-обновления, что неэффективно. ERNIE 5.1 использует разделённую архитектуру: сбор данных, вычисление вознаграждения и обновление модели работают полностью асинхронно и параллельно, значительно увеличивая пропускную способность обучения.
2. Масштабированное постобучение агентских способностей (Scaled Agentic Post-Training)
5.1 внедряет масштабированное обучение агентским способностям — не просто “отвечать на вопросы”, а “вызывать инструменты, планировать задачи, автономно выполнять”. Это выделяет модель в сценариях, требующих рассуждений и использования инструментов (кодирование, бизнес-анализ).
3. Оптимизация архитектуры MoE
Механизм маршрутизации Mixture of Experts гарантирует активацию только ~15-20% параметров на токен. В сочетании со смешанной точностью INT4/FP8 использование VRAM снижено на ~50%, потеря точности控制在 1.2%以内.
Сравнение с моделями-аналогами
В диапазоне #10-16 LMSYS Arena конкуренты ERNIE 5.1 Preview включают:
| Модель | Позиционирование |
|---|---|
| Claude 3.5 Sonnet | Закрытая, сильное рассуждение |
| Qwen-Max / Qwen2.5-72B | Open-source 70B флагман |
| Mixtral 8x22B | Пионер MoE-подхода |
| ERNIE 5.1 Preview | Сжатый MoE + китайское преимущество |
Уникальное позиционирование ERNIE 5.1: достичь производительности, близкой к флагманам, с меньшими вычислительными ресурсами, создавая дифференцированное лидерство в китайских вертикальных доменах.
Снижение цен API и позиционирование для предприятий
По данным AIBase, цены API ERNIE 5.1 снижены на ~40% по сравнению с v4.0. Preview-версия доступна через консоль Baidu Cloud, полный коммерческий релиз ожидается в Q3 2026.
Анализ 36Kr отмечает: “Ключ ERNIE 5.1 — не масштаб параметров, а стоимость вывода. Для SME и отраслевых сценариев тонкой настройки технология сжатия 5.1 значительно снижает порог приватного развёртывания.”
Отраслевой ландшафт
Первая половина 2026 года ознаменовала новый этап конкуренции китайских LLM:
- Qwen (Alibaba): Открытый маршрут, Qwen2.5-72B стабильно в топе Arena
- Kimi (Moonshot AI): K2.6 атакует в программировании, крипто-капитал входит
- ERNIE (Baidu): От “гонки параметров” к “гонке эффективности”, фокус на предприятия
- DeepSeek: V4 адаптируется к экосистеме Ascend, национальный маршрут
Тихий запуск ERNIE 5.1 Preview сам по себе сигнал — Baidu больше не нуждается в пресс-конференциях для самодоказательства, позволяя рейтингам Arena говорить за себя.
Рекомендации
- Корпоративные пользователи: Следите за стоимостью приватного развёртывания после снижения цен 5.1, особенно в правовых и финансовых сценариях
- Разработчики: Preview доступен на LMSYS — сравните с Qwen-Max и Kimi K2.6 в реальных задачах
- Наблюдатели отрасли: В Q3 при полном релизе обратите внимание на то, сохраняет ли технология сжатия конкурентоспособность на дополнительных бенчмарках