xAI 在 Colossus 2 上同时训练 7 个 Grok 模型,最大规模达 10T 参数

xAI 在 Colossus 2 上同时训练 7 个 Grok 模型,最大规模达 10T 参数

核心结论

xAI 正在其 Colossus 2 集群上同时训练 7 个不同规模的 Grok 模型,这是目前公开信息中最大规模的并行训练计划。结合刚发布的 Grok 4.3 在 agentic tool calling 上的表现,xAI 正在构建一个从轻量到超大规模的完整模型矩阵。

训练规模一览

据 X 平台披露的信息,当前在 Colossus 2 上训练的模型矩阵如下:

模型代号参数量定位对标竞品
当前 Grok0.5T (500B)现有旗舰GPT-5.5, Claude Opus 4.7
Grok 5 Small1T高效推理Gemini 2.5 Pro
Grok 5 Mid1.5T均衡性能Claude Sonnet 4.5
Grok 5 Large6T深度推理GPT-6 (预期)
Grok 5 Max10T极致性能无直接对标

10T 参数的 Grok 5 Max 如果训练成功,将成为目前全球最大规模的单体语言模型。作为参照,GPT-4 的参数估计在 1.76T 左右,Claude 3 Opus 估计在 1-2T 量级。

Colossus 2:训练基础设施

Colossus 2 是 xAI 在孟菲斯建设的超大规模 GPU 集群。其关键特征:

  • GPU 规模:超过 20 万块 NVIDIA H100/B200 GPU(具体数字未完全公开)
  • 网络互联:自研 InfiniScale 网络架构,解决万卡级别的通信瓶颈
  • 电力供应:配套建设专属变电站,峰值功耗超过 500MW
  • 散热方案:全液冷设计,PUE 低于 1.1

这种规模的基础设施使得同时训练 7 个大模型成为可能——每个模型可以分配到数万块 GPU,在数周而非数月内完成训练。

Grok 4.3:已经交付的能力

在等待 Grok 5 系列的同时,xAI 已于 2026 年 5 月初发布了 Grok 4.3,核心规格:

  • Agentic Tool Calling 登顶:在 agent 工具调用评测中排名第一
  • 推理速度:100 tokens/秒(服务端)
  • 上下文窗口:1M tokens
  • 定价:$1.25/MTok 输入,极具竞争力

Grok 4.3 的 tool calling 能力尤其值得关注。在 Agent 生态中,工具调用的准确率直接决定了 Agent 的可用性和可靠性。Grok 4.3 在这项评测中超越 GPT-5.5 和 Claude Opus 4.7,意味着 xAI 在 Agent 基础设施上的投入已经见效。

格局判断:从”单一旗舰”到”模型矩阵”

xAI 的策略变化值得注意。此前各大厂商主要维护 2-3 个模型(大/中/小),而 xAI 一次性铺开 7 个模型的训练计划,暗示了以下趋势:

  1. 场景细分加剧:不同参数量对应不同部署场景(云端、边缘、端侧)
  2. 训练效率提升:Colossus 2 的算力冗余使得并行训练多个模型成为经济可行的选择
  3. 快速迭代节奏:7 个模型同时训练,意味着可以快速试错,选择效果最好的架构推向市场

行动建议

你的角色关注点
Agent 开发者先用 Grok 4.3 的 tool calling 能力,价格低且效果领先
企业技术选型关注 Grok 5 Small/Mid,可能在成本和性能间找到最优平衡
研究者Colossus 2 的并行训练架构值得关注,代表了训练基础设施的演进方向
投资者10T 参数模型的商业化路径——推理成本和延迟如何平衡是关键问题

时间节点:Grok 5 Small 和 Mid 预计在未来 3-6 个月内可用,Large 和 Max 可能需要 6-12 个月。