前沿 LLM 参数规模被"猜"出来了:GPT-5.5 约 10T、Claude Opus 约 4-5T、Grok 约 3T

前沿 LLM 参数规模被"猜"出来了:GPT-5.5 约 10T、Claude Opus 约 4-5T、Grok 约 3T

核心发现

一家研究团队用一种巧妙的方法估算了所有前沿闭源 LLM 的参数规模:

模型估算参数量估算方法可信度
GPT-5.5~10 万亿知识深度探针
Claude Opus 4.x~4-5 万亿知识深度探针
Grok 4~3 万亿知识深度探针
Kimi K2.51 万亿(官方公布)
DeepSeek V46710 亿(官方公布)

关键发现:闭源模型的参数规模差异巨大,GPT-5.5 比 Claude Opus 大了约 2 倍。

“知识探针”方法原理

这个方法的核心思路很直接:

参数越多 → 记住的知识越多 → 能回答的冷门问题越多

具体操作:

  1. 构建知识梯度问题集:从常识问题到极其冷门的专业知识,按稀有度分级
  2. 测试各模型的准确率曲线:观察模型在什么稀有度开始”掉知识”
  3. 拟合参数-知识关系:利用已知参数量的开源模型(如 LLaMA、Kimi K2.5)建立基准曲线
  4. 反推闭源模型参数量:根据闭源模型的知识保留率,在基准曲线上找到对应的参数规模

这个方法类似用”词汇量测试”估算一个人的阅读量。

这些数字意味着什么

GPT-5.5 ~10T 参数

10 万亿参数是什么概念?

  • 是 GPT-4(约 1.76 万亿)的约 5.7 倍
  • 是目前公开参数最多的模型
  • 解释了为什么 GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%(远超 Claude Opus 4.7 的 69.4%)

Claude Opus 4.x ~4-5T 参数

Claude 的参数量大约是 GPT-5.5 的一半,但:

  • 在 LMSYS Arena Elo 排名中 Anthropic 仍领先(1,503 vs OpenAI 的 1,481)
  • 说明 Anthropic 可能在训练数据质量、对齐方法或架构效率上更有优势
  • 更少的参数 + 更好的效果 = 更高的效率

Grok 4 ~3T 参数

Grok 4 的参数规模在三大闭源模型中最小,但:

  • xAI 在 Arena Elo 排名中位列第二(1,495)
  • 说明 Grok 4 的效率也很高
  • 可能与 Grok 的训练数据(X/Twitter 实时数据)有关

方法论的局限性

这种方法有几点需要注意:

  1. 知识 ≠ 参数:模型可以通过更好的训练数据或架构设计,用更少的参数记住更多知识
  2. MoE 架构的复杂性:对于 MoE 模型,“总参数”和”激活参数”的区别很大(如 Kimi K2.5 有 1 万亿总参数但只激活 320 亿)
  3. 校准问题:开源模型作为基准可能不够代表性
  4. 统计误差:估算值的误差范围可能在 ±30% 甚至更大

所以这些数字应该被视为数量级估计而非精确值。

为什么这种研究很重要

在闭源模型主导前沿能力的时代,研究者缺乏直接访问模型架构的途径。“知识探针”方法提供了一种:

  • 无需 API 访问的能力评估手段
  • 跨模型比较的客观基准
  • 趋势追踪的方法——随着时间推移,可以观察各公司的参数增长轨迹

这种研究对于 AI 透明度、安全评估和竞争分析都有价值。

与中国模型的关系

有趣的是,主要中国开源模型的参数规模都是官方公布的:

  • Kimi K2.5: 1 万亿总参数 / 320 亿激活参数
  • DeepSeek V4: 6710 亿参数
  • Qwen 3.6: 多种规格(7B、72B、235B 等)

这种透明度让中国模型在学术界和研究社区中获得了更高的可信度。相比之下,美国闭源模型的参数规模需要靠”猜测”。

格局判断

参数规模竞赛正在进入新阶段:

  • GPT-5.5 的 10T 说明 OpenAI 在 brute force 路线上走得很远
  • Claude Opus 的 4-5T 说明 Anthropic 在效率路线上走得更精
  • 中国开源模型 的透明参数 + 高性价比,正在改变竞争规则

下一个值得关注的问题:当参数规模增长遇到边际收益递减时,竞争焦点会转向哪里?训练数据?架构创新?还是多代理能力?

行动建议

  • 研究者:可以基于这种方法构建更系统的模型评估框架,加入更多维度(推理能力、安全性等)
  • 企业用户:参数规模不是选择模型的唯一标准,效率(效果/成本比)更重要。Claude Opus 用一半参数达到可比效果是典型案例
  • 政策制定者:闭源模型缺乏透明度是一个系统性风险,需要推动某种形式的模型信息披露标准