Anthropic 内部测试 "Claude Jupiter"：下一代模型的红队测试已经启动

核心结论

Anthropic 内部已启动代号 “claude-jupiter-v1-p” 的新模型红队测试。从命名规则来看，“Jupiter”（木星）很可能是继当前 Claude 4.7 Opus 之后的下一代旗舰模型。与此同时，英国 AISI 的评估数据显示 GPT-5.5 在某些专家级任务上已接近或超过 Claude 的 “Mythos” 预览版——Anthropic 的产品节奏正面临前所未有的压力。

发生了什么

Jupiter 模型曝光

一条来自 AI 安全社区的推文确认：

“ANTHROPIC 🚨: Anthropic started testing a new ‘claude-jupiter-v1-p’ model with red teams.”

该推文获得了 698 个赞和 104 次收藏，说明社区对此高度关注。

关键信息拆解：

claude-jupiter：内部代号，延续 Anthropic 以天体命名的传统（此前的 “Opus” 也有类似意味）
v1-p：可能是 “v1-preview” 的缩写，暗示这是预览版本
red teams：红队测试是 Anthropic 模型发布前的标准安全评估流程，说明 Jupiter 已进入后期开发阶段

竞争格局的微妙变化

就在 Jupiter 曝光的同时，英国 AI 安全研究所（AISI）的评估数据透露了一个重要信号：

模型	TLO 端到端完成	专家级任务得分
GPT-5.5	2/10	71.4%
Mythos Preview	3/10	未公开

AISI 的发现是：“GPT-5.5 performs nearly on par with, or better than, mythos in several cases。” 这意味着 Anthropic 此前围绕 Mythos 建立的”性能领先”叙事可能正在被削弱。

为什么重要

1. Anthropic 的产品节奏分析

回顾 Anthropic 近一年的发布节奏：

2025 Q3: Claude 4.0 (Sonnet/Opus/Haiku 三代并行)
2025 Q4: Claude 4.5 系列
2026 Q1: Claude 4.7 Opus
2026 Q2: Mythos（预览版）
2026 Q2-Q3: Jupiter（预期）

Jupiter 的命名暗示它可能是比 Mythos 更重要的更新。如果 “Jupiter” 是一个全新的模型架构（而非现有模型的微调版本），这可能意味着 Anthropic 正在押注一个更大的技术赌注。

2. 红队测试的时间线意义

Anthropic 的红队测试通常在模型公开发布前 4-8 周启动。如果 Jupiter 的红队测试在 4 月底开始，那么：

最早公开发布窗口：2026 年 6 月
最晚公开发布窗口：2026 年 7 月

这与 Google I/O（预计 5-6 月）和 OpenAI 的下一轮更新可能形成”正面碰撞”。

3. 安全评估的透明度博弈

AISI 对 GPT-5.5 和 Mythos 的公开对比评估，实际上在倒逼 Anthropic 加速 Jupiter 的开发。如果 Mythos 的领先优势被公开数据削弱，Anthropic 需要 Jupiter 来重新建立市场信心。

格局判断

Jupiter 的曝光揭示了三条重要线索：

Anthropic 没有放慢节奏：在 Claude 4.7 之后迅速推进 Jupiter，说明内部对技术路线有信心
安全评估正在成为竞争工具：AISI 等机构的公开数据正在影响市场叙事，模型公司必须用实际性能回应
下一代竞争可能在 6-7 月集中爆发：Jupiter、Google I/O 的新模型、OpenAI 的后续更新可能扎堆发布

行动建议

企业用户：如果当前依赖 Claude 4.7 的生产工作流运行良好，不必急于等待 Jupiter——建议等正式发布后做针对性评测
开发者：关注 Jupiter 可能带来的新 API 能力（特别是如果它支持原生多 Agent 协作）
竞品选型者：6-7 月是模型集中更新窗口，建议推迟重大采购决定到 Jupiter 正式发布后