Meta 在 4 月 10 日发布了 Muse Spark,这是其自 2025 年初以来首个重大模型更新。在 LMSYS Chatbot Arena 上,Muse Spark 的表现超出预期:文本 Arena 排名第三(与 Gemini 3.1 Pro 和 Claude Opus 4.6 并列),视觉 Arena 排名第二(与 Claude Opus 4.6 并列)。
这是 Meta 在沉寂一年多后的回归。Muse Spark 在图像生成质量上也拿到了 LMSYS 的 #4 排名。结合 Meta 此前在 Llama 系列上的开源策略,Muse Spark 的闭源发布标志着 Meta 在模型策略上的转变——从”纯开源”走向”开源+闭源前沿”双线并行。
当前主要榜单概览
LMSYS Chatbot Arena(截至 2026 年 4 月中旬):
| 排名 | 模型 | Elo 评分 | 趋势 |
|---|---|---|---|
| 1 | Gemini 3.1 Pro | 1287 | ↑ |
| 2 | Claude Opus 4.6 | 1265 | → |
| 3 | GPT-5.3 | 1248 | → |
| 3 | Muse Spark | ~1248 | 新入 |
| 3 | Gemini 3.1 Pro | - | - |
需要注意的是,Opus 4.7 和 GPT-5.5 的最新数据可能尚未完全反映在 LMSYS 上,因为榜单的投票累积需要时间。
Artificial Analysis Intelligence Index:
Claude Opus 4.7、GPT-5.4 和 Gemini 3.1 Pro 在 Intelligence Index 上并列第一梯队。Opus 4.7 得分 57,较 Opus 4.6 提升了 4 分。在 GDPval-AA(通用 Agentic 能力)基准上,Opus 4.7 排名第一。
格局判断
Muse Spark 的回归意味着前沿模型竞争从”三强”(OpenAI、Anthropic、Google)扩展到”四强”。Meta 的优势在于:拥有全球最大的社交数据入口和开源生态基础。如果 Muse Spark 的闭源 API 价格具有竞争力,它可能对 Gemini 3.1 Pro 的中端市场份额形成直接冲击。
另一个值得关注的趋势是榜单的”拥挤化”。前三名之间的 Elo 差距已经缩小到 40 分以内(1287 vs 1248),这意味着在日常使用场景中,用户感知到的差异正在变小。当性能差距缩小到一定程度时,价格、生态和开发者体验将取代”谁跑分最高”成为决定因素。
行动建议
- 模型选型参考:LMSYS 的文本 Arena 前三名(Gemini 3.1 Pro、Opus 4.6、Muse Spark/GPT-5.3)在综合对话场景中差异不大。建议以价格、上下文窗口和特定能力(代码、多模态)作为主要筛选条件。
- 关注 Opus 4.7 和 GPT-5.5 的最新排名:这两个模型发布后尚未完全反映在榜单上。等数据积累充分后,排名可能有较大变化。
- Muse Spark 的开源计划:如果 Meta 延续 Llama 的开源策略,Muse Spark 的开源版本可能对开发者生态产生显著影响。值得关注后续公告。