C
ChaoBro

Anthropic 内部测试 "Claude Jupiter":下一代模型的红队测试已经启动

Anthropic 内部测试 "Claude Jupiter":下一代模型的红队测试已经启动

核心结论

Anthropic 内部已启动代号 “claude-jupiter-v1-p” 的新模型红队测试。从命名规则来看,“Jupiter”(木星)很可能是继当前 Claude 4.7 Opus 之后的下一代旗舰模型。与此同时,英国 AISI 的评估数据显示 GPT-5.5 在某些专家级任务上已接近或超过 Claude 的 “Mythos” 预览版——Anthropic 的产品节奏正面临前所未有的压力。

发生了什么

Jupiter 模型曝光

一条来自 AI 安全社区的推文确认:

“ANTHROPIC 🚨: Anthropic started testing a new ‘claude-jupiter-v1-p’ model with red teams.”

该推文获得了 698 个赞和 104 次收藏,说明社区对此高度关注。

关键信息拆解:

  • claude-jupiter:内部代号,延续 Anthropic 以天体命名的传统(此前的 “Opus” 也有类似意味)
  • v1-p:可能是 “v1-preview” 的缩写,暗示这是预览版本
  • red teams:红队测试是 Anthropic 模型发布前的标准安全评估流程,说明 Jupiter 已进入后期开发阶段

竞争格局的微妙变化

就在 Jupiter 曝光的同时,英国 AI 安全研究所(AISI)的评估数据透露了一个重要信号:

模型TLO 端到端完成专家级任务得分
GPT-5.52/1071.4%
Mythos Preview3/10未公开

AISI 的发现是:“GPT-5.5 performs nearly on par with, or better than, mythos in several cases。” 这意味着 Anthropic 此前围绕 Mythos 建立的”性能领先”叙事可能正在被削弱。

为什么重要

1. Anthropic 的产品节奏分析

回顾 Anthropic 近一年的发布节奏:

  • 2025 Q3: Claude 4.0 (Sonnet/Opus/Haiku 三代并行)
  • 2025 Q4: Claude 4.5 系列
  • 2026 Q1: Claude 4.7 Opus
  • 2026 Q2: Mythos(预览版)
  • 2026 Q2-Q3: Jupiter(预期)

Jupiter 的命名暗示它可能是比 Mythos 更重要的更新。如果 “Jupiter” 是一个全新的模型架构(而非现有模型的微调版本),这可能意味着 Anthropic 正在押注一个更大的技术赌注。

2. 红队测试的时间线意义

Anthropic 的红队测试通常在模型公开发布前 4-8 周启动。如果 Jupiter 的红队测试在 4 月底开始,那么:

  • 最早公开发布窗口:2026 年 6 月
  • 最晚公开发布窗口:2026 年 7 月

这与 Google I/O(预计 5-6 月)和 OpenAI 的下一轮更新可能形成”正面碰撞”。

3. 安全评估的透明度博弈

AISI 对 GPT-5.5 和 Mythos 的公开对比评估,实际上在倒逼 Anthropic 加速 Jupiter 的开发。如果 Mythos 的领先优势被公开数据削弱,Anthropic 需要 Jupiter 来重新建立市场信心。

格局判断

Jupiter 的曝光揭示了三条重要线索:

  1. Anthropic 没有放慢节奏:在 Claude 4.7 之后迅速推进 Jupiter,说明内部对技术路线有信心
  2. 安全评估正在成为竞争工具:AISI 等机构的公开数据正在影响市场叙事,模型公司必须用实际性能回应
  3. 下一代竞争可能在 6-7 月集中爆发:Jupiter、Google I/O 的新模型、OpenAI 的后续更新可能扎堆发布

行动建议

  • 企业用户:如果当前依赖 Claude 4.7 的生产工作流运行良好,不必急于等待 Jupiter——建议等正式发布后做针对性评测
  • 开发者:关注 Jupiter 可能带来的新 API 能力(特别是如果它支持原生多 Agent 协作)
  • 竞品选型者:6-7 月是模型集中更新窗口,建议推迟重大采购决定到 Jupiter 正式发布后