百度文心5.1 Preview悄然上线Arena，全球排名第13，法律领域登顶

核心判断

百度走了一条和同行完全不同的路——不拼参数规模，拼推理性价比。文心 5.1 Preview 的发布标志着国产大模型进入”后参数量竞赛”时代。

在 LMSYS Arena 上以 1476 分位列全球第 13，同时参数量压缩至上一代（5.0，2.4 万亿参数）的约三分之一，活跃参数仅为一半。这种”瘦身”不是性能降级，而是 MoE（混合专家）架构和异步强化学习技术迭代的结果。

发生了什么

4 月 30 日，文心 5.1 Preview 悄然登陆 LMSYS Chatbot Arena。没有发布会、没有铺天盖地的 PR，直接在排行榜上亮相——这种”quiet launch”方式在国产大模型中颇为罕见。

截至发稿，该模型已获得 3,560 票对战数据，Elo 得分为 1476 ± 10，位列全球第 13 名。

Arena 排名详情

指标	数值
全球总排名	#13
Elo 分数	1476 ± 10
对战票数	3,560
模型类型	闭源 / Proprietary
状态	Preview

分领域排名

文心 5.1 Preview 在细分领域的表现更为亮眼：

领域	全球排名
⚖️ 法律与政府	#1
💼 商业管理与金融	#4
💻 软件与 IT 服务	#7
📐 数学	#9

法律领域登顶全球第一，这与百度多年来在中文语料、法律文书、政务场景的数据积累直接相关。

技术亮点：为什么参数量缩减反而排名上升？

文心 5.0（2025 年 11 月百度世界大会发布）是一个 2.4 万亿参数的统一多模态模型。5.1 Preview 在此基础上做了大幅”瘦身”：

参数量压缩

总参数：压缩至 5.0 的 ~1/3
活跃参数：压缩至 5.0 的 ~1/2
训练成本：仅同类模型的 ~6%

关键技术

1. 分离式全异步强化学习

传统 RLHF 训练需要在线采样-评估-更新的同步循环，效率低下。文心 5.1 采用分离式架构：数据收集、奖励计算、模型更新三个环节完全异步并行，训练吞吐大幅提升。

2. 规模化智能体后训练（Scaled Agentic Post-Training）

5.1 在后训练阶段引入了 Agent 能力的规模化训练——不仅是”回答问题”，而是学习”调用工具、规划任务、自主执行”。这使得它在需要推理和工具使用的场景（编程、商业分析）中表现突出。

3. MoE 架构优化

混合专家（Mixture of Experts）路由机制确保每个 token 只激活约 15-20% 的参数。配合 INT4/FP8 混合精度推理，VRAM 占用降低约 50%，精度损失控制在 1.2% 以内。

与同梯队模型的对比

在 LMSYS Arena 第 10-16 名区间，文心 5.1 Preview 的竞争对手包括：

模型（典型代表）	定位
Claude 3.5 Sonnet 变体	闭源强推理
Qwen-Max / Qwen2.5-72B	开源 70B 级旗舰
Mixtral 8x22B	MoE 路线先行者
ERNIE 5.1 Preview	压缩 MoE + 中文优势

文心 5.1 的独特定位：用更少的计算资源，达到接近旗舰模型的综合表现，同时在中文垂直领域（法律、政务、商业）形成差异化领先。

API 降价与企业级定位

据 AIBase 报道，文心 5.1 的 API 定价较 4.0 版本下调约 40%，Preview 版本已通过百度智能云控制台开放访问，全面商业化预计 2026 年 Q3。

36 氪的分析指出：“文心 5.1 的核心不是拼参数规模，而是拼推理性价比。面向中小企业与行业大模型微调场景，5.1 的压缩技术让私有化部署门槛大幅降低。“

行业格局判断

2026 年上半年的国产大模型竞争已进入新阶段：

Qwen（阿里）：持续开源路线，Qwen2.5-72B 在 Arena 稳居前列
Kimi（月之暗面）：K2.6 在编程 SOTA 上发力，加密资本入场
文心（百度）：从”参数竞赛”转向”性价比竞赛”，聚焦企业落地
DeepSeek：V4 版本适配昇腾生态，国产化路线

文心 5.1 Preview 的 Quiet Launch 本身就是一个信号——百度不再需要一场发布会来证明自己，而是直接用 Arena 排名说话。

行动建议

企业用户：关注 5.1 的 API 降价后的私有化部署成本，特别是法律、政务、金融场景
开发者：Preview 版本已在 LMSYS 上可体验，建议对比 Qwen-Max 和 Kimi K2.6 的实际表现
行业观察者：Q3 正式版发布时，重点关注压缩技术是否能在更多 benchmark 上保持竞争力