DeepSeek V4、NIST報告でGPT-5と同等能力を認定：中国モデル、8ヶ月で米国トップレベルに追いつく

結論：中美モデル間のギャップが定量化・追跡され始めた

米国国立標準技術研究所（NIST）が発表した最新AIモデル評価報告書の中で、業界の注目を集めた重要な発見がある：DeepSeek V4は複数のコアベンチマークにおいて、8ヶ月前にリリースされたGPT-5のレベルに到達した。

これは某評価機関の一方的な結論ではなく、米国公式技術機関による独立評価だ。現在の追跡傾向が続けば、報告書は中国モデルが2027年2月までにGPT-5.5（約Mythosレベル）に達すると予測している。

NIST報告書の主要次元比較：

次元	DeepSeek V4	GPT-5（8ヶ月前）	差
一般推論	接近	ベースライン	≈ 同等
コード生成	接近	ベースライン	≈ 同等
数学推論	やや低い	ベースライン	-3〜-5ポイント
マルチモーダル理解	明らかな遅れ	ベースライン	-8〜-10ポイント
長文コンテキスト	接近	ベースライン	≈ 同等
中国語能力	明らかな優位	—	中国モデルのアドバンテージ

重要な発見：最も実用的な2つの次元——一般推論とコード生成——において、DeepSeek V4はすでにGPT-5に追いついている。ギャップは主にマルチモーダル理解に集中しているが、これはまさにDeepSeek V4の設計上のトレードオフ（テキスト推論効率に注力）だ。

報告書は注目すべき外挿を提供している：

2025.09 — GPT-5リリース（米国ベースライン）
2026.01 — DeepSeek V4がGPT-5レベルに到達（約4ヶ月遅れ）
2026.09 — GPT-5.5リリース（予想）
2027.02 — 中国モデルがGPT-5.5レベルに到達（予想約5ヶ月遅れ）

この傾向が正確であれば、以下を意味する：

DeepSeek V4の追跡は「計算リソースを投入する」ことで達成されたのではなく、異なる技術ルートを取った：

このパスの違いの長期的影響：

NIST報告書の外挿は歴史的傾向に基づいているが、以下の要因が追跡リズムを変える可能性がある：

このNIST報告書が重要な理由は、中美モデルの能力ギャップを定量化したことだけでなく、より重要なことに、一つの傾向を確認したことにある：中国モデルの追跡は「追いつけるかどうか」から「どれくらいで追いつくか」にシフトしている。