DeepSeek V4 がついに画像認識——最後の純テキストトップモデルが追いついた

1M コンテキストをリリースした直後に識図モード

DeepSeek のイテレーションペースは本当に不合理だ。

1M コンテキストウィンドウ搭載の V4 がリリースされたばかりで、コミュニティがまだ消化しきらないうちに、識図モードが静かに上线した。記者会見なし、PR リリースなし——研究者がソーシャルメディアで投稿して削除、そして機能がアプリに現れた。

これが DeepSeek スタイル。

テストはシンプル：文字のない桂林象鼻山の写真をアップロード。

DeepSeek V4 はランドマーク名を特定し、形態特徴を記述し、地理位置を推論した。

これは「画像に文字があるから読んであげる」ではない。真の視覚理解——モデルがシーンを「見て」、ナレッジベースでマッチングと推論を行った。

端的に言えば：中国トップ LLM で最後にビジョンを持たないプレイヤーがついにこのギャップを埋めた。

DeepSeek は最初から他の家とは違う道を歩んだ。

通義千問、文心一言、Kimi、智譜 GLM——これらの競合は早期からマルチモーダルを入力していた。DeepSeek はテキスト推論とプログラミング能力に精力を集中し、純テキストモデルを業界第一線に押し上げた。

当時のこの選択は議論を呼んだ。2025 年に画像サポートがないのは「片手落ち」だという声もあった。だが DeepSeek のロジックはおそらくこうだ：まずテキスト能力を極限まで引き上げ、視覚能力は後から漸進的に補完する。

振り返ってみれば、この戦略は成功した。V4 のテキスト能力は複数のベンチマークで実証され、識図モードの追加で明確なショートがなくなった。

識図モードは現在灰度テスト中。一部のエントリーポイントを見ていないユーザーはアプリを最新版にアップグレードすることを推奨。

アプリで「識図モード」アイコンが見えているなら——おめでとう、DeepSeek V4 が最後のピースをロックした。