xAI 在 Colossus 2 上同时训练 7 个 Grok 模型，最大规模达 10T 参数

核心结论

xAI 正在其 Colossus 2 集群上同时训练 7 个不同规模的 Grok 模型，这是目前公开信息中最大规模的并行训练计划。结合刚发布的 Grok 4.3 在 agentic tool calling 上的表现，xAI 正在构建一个从轻量到超大规模的完整模型矩阵。

据 X 平台披露的信息，当前在 Colossus 2 上训练的模型矩阵如下：

10T 参数的 Grok 5 Max 如果训练成功，将成为目前全球最大规模的单体语言模型。作为参照，GPT-4 的参数估计在 1.76T 左右，Claude 3 Opus 估计在 1-2T 量级。

Colossus 2 是 xAI 在孟菲斯建设的超大规模 GPU 集群。其关键特征：

这种规模的基础设施使得同时训练 7 个大模型成为可能——每个模型可以分配到数万块 GPU，在数周而非数月内完成训练。

在等待 Grok 5 系列的同时，xAI 已于 2026 年 5 月初发布了 Grok 4.3，核心规格：

Grok 4.3 的 tool calling 能力尤其值得关注。在 Agent 生态中，工具调用的准确率直接决定了 Agent 的可用性和可靠性。Grok 4.3 在这项评测中超越 GPT-5.5 和 Claude Opus 4.7，意味着 xAI 在 Agent 基础设施上的投入已经见效。

xAI 的策略变化值得注意。此前各大厂商主要维护 2-3 个模型（大/中/小），而 xAI 一次性铺开 7 个模型的训练计划，暗示了以下趋势：

你的角色	关注点
Agent 开发者	先用 Grok 4.3 的 tool calling 能力，价格低且效果领先
企业技术选型	关注 Grok 5 Small/Mid，可能在成本和性能间找到最优平衡
研究者	Colossus 2 的并行训练架构值得关注，代表了训练基础设施的演进方向
投资者	10T 参数模型的商业化路径——推理成本和延迟如何平衡是关键问题

时间节点：Grok 5 Small 和 Mid 预计在未来 3-6 个月内可用，Large 和 Max 可能需要 6-12 个月。