LMSYS 与 Artificial Analysis 最新榜单：Meta Muse Spark 重返前线

Meta 在 4 月 10 日发布了 Muse Spark，这是其自 2025 年初以来首个重大模型更新。在 LMSYS Chatbot Arena 上，Muse Spark 的表现超出预期：文本 Arena 排名第三（与 Gemini 3.1 Pro 和 Claude Opus 4.6 并列），视觉 Arena 排名第二（与 Claude Opus 4.6 并列）。

这是 Meta 在沉寂一年多后的回归。Muse Spark 在图像生成质量上也拿到了 LMSYS 的 #4 排名。结合 Meta 此前在 Llama 系列上的开源策略，Muse Spark 的闭源发布标志着 Meta 在模型策略上的转变——从”纯开源”走向”开源+闭源前沿”双线并行。

当前主要榜单概览

LMSYS Chatbot Arena（截至 2026 年 4 月中旬）：

排名	模型	Elo 评分	趋势
1	Gemini 3.1 Pro	1287	↑
2	Claude Opus 4.6	1265	→
3	GPT-5.3	1248	→
3	Muse Spark	~1248	新入
3	Gemini 3.1 Pro	-	-

需要注意的是，Opus 4.7 和 GPT-5.5 的最新数据可能尚未完全反映在 LMSYS 上，因为榜单的投票累积需要时间。

Artificial Analysis Intelligence Index：

Claude Opus 4.7、GPT-5.4 和 Gemini 3.1 Pro 在 Intelligence Index 上并列第一梯队。Opus 4.7 得分 57，较 Opus 4.6 提升了 4 分。在 GDPval-AA（通用 Agentic 能力）基准上，Opus 4.7 排名第一。

格局判断

Muse Spark 的回归意味着前沿模型竞争从”三强”（OpenAI、Anthropic、Google）扩展到”四强”。Meta 的优势在于：拥有全球最大的社交数据入口和开源生态基础。如果 Muse Spark 的闭源 API 价格具有竞争力，它可能对 Gemini 3.1 Pro 的中端市场份额形成直接冲击。

另一个值得关注的趋势是榜单的”拥挤化”。前三名之间的 Elo 差距已经缩小到 40 分以内（1287 vs 1248），这意味着在日常使用场景中，用户感知到的差异正在变小。当性能差距缩小到一定程度时，价格、生态和开发者体验将取代”谁跑分最高”成为决定因素。

行动建议

模型选型参考：LMSYS 的文本 Arena 前三名（Gemini 3.1 Pro、Opus 4.6、Muse Spark/GPT-5.3）在综合对话场景中差异不大。建议以价格、上下文窗口和特定能力（代码、多模态）作为主要筛选条件。
关注 Opus 4.7 和 GPT-5.5 的最新排名：这两个模型发布后尚未完全反映在榜单上。等数据积累充分后，排名可能有较大变化。
Muse Spark 的开源计划：如果 Meta 延续 Llama 的开源策略，Muse Spark 的开源版本可能对开发者生态产生显著影响。值得关注后续公告。

当前主要榜单概览

格局判断

行动建议

主要来源

相关内容

百度文心5.1 Preview悄然上线Arena，全球排名第13，法律领域登顶

阿里 Qwen3.6-Max-Preview 登顶国产模型榜首，智能体编程能力大幅提升

神秘模型 Elephant Alpha 揭晓：InclusionAI 发布 Ling-2.6-Flash，比 Sonnet 4.6 快 6 倍