DeepSeek V4 评测:1.6T 参数开源模型能否挑战前沿

DeepSeek V4 评测:1.6T 参数开源模型能否挑战前沿

结论

DeepSeek V4 是目前最接近前沿水平的开源模型,在编码和推理基准上以 0.2 分以内的差距逼近 GPT-5.4 / Opus 4.5+ 级别,但 API 价格只有前者的 1/7 到 1/9。它的定位很清晰:用极低成本提供”够用”的前沿能力,而非争夺 SOTA。

适合预算有限的团队做原型验证和批量推理任务;不适合对极限性能有要求的场景——它距离 GPT-5.5 和 Opus 4.7 仍有约 4-5 个月的技术代差。

测试维度

模型架构与规模

DeepSeek V4 采用混合专家架构(MoE),总参数量 1.6 万亿,上下文窗口 100 万 token,支持 50 多种语言。它是首个大规模使用华为昇腾芯片训练的模型,这意味着在中美芯片竞争背景下,中国在算力受限条件下依然产出了有竞争力的前沿模型。

DeepSeek V4 Pro 版本进一步强化了智能体编码能力,在中国本土评测中综合得分 70.98,超过所有其他国产开源模型。

基准成绩

基准DeepSeek V4GPT-5.5Claude Opus 4.7Gemini 2.5 Pro
SWE-bench Pro~58%58.6%64.3%~55%
Terminal-Bench 2.0~75%82.7%~70%~72%
AIME 2025~90%~95%~93%~92%
MRCR @ 1M~50%74%32.2%~60%

在编码任务上,V4 与 GPT-5.4/Opus 4.5+ 处于同一梯队,但距离 GPT-5.5 和 Opus 4.7 仍有可见差距。在数学推理方面表现稳健,接近第一梯队。长上下文检索能力中等——能用,但不如 GPT-5.5 可靠。

实际使用体验

社区反馈集中在几个方面:

  • 中文能力突出:作为国产模型,中文理解和生成质量明显优于多数国际竞品
  • 幻觉率偏高:有评测指出 V4 在事实性问答中的幻觉率达到 86%,需要在生产环境中配合验证层
  • 推理速度:由于 MoE 架构,激活参数远小于总参数,推理延迟表现优于同规模稠密模型
  • 部署门槛:开源权重可本地部署,但 1.6T 参数的完整模型需要多卡集群;蒸馏后的较小版本更适合单机

价格

DeepSeek V4 的 API 定价为 $3.48/MTok 输出,相比之下 Opus 4.7 为 $25/MTok,GPT-5.5 为 $30/MTok。7-9 倍的价格差距是其最大的差异化优势。DeepSeek V4 Pro 的完整 Artificial Analysis Index 运行成本仅 $1,071,是 Opus 4.7 的五分之一。

选择建议

中国本土团队:优先考虑。中文能力强、部署灵活、价格极低,且不受美国出口管制影响。

成本敏感的批量任务:DeepSeek V4 是最优解。文档处理、批量摘要、简单代码生成等任务,其能力完全足够。

需要极限性能的场景:暂不建议。在复杂智能体编排、大规模代码重构、高精度推理等场景,GPT-5.5 和 Opus 4.7 仍明显领先。

学术研究:Apache 2.0 协议下可自由使用和修改,是非常好的研究基座。

主要来源