DeepSeek V4 突然能看图了——最后一个纯文本的头部选手终于补上了

发完 1M 上下文，转头就上了识图模式

DeepSeek 的更新节奏真的挺不讲道理的。

V4 带着 1M 上下文窗口刚发没几天，社区还没完全消化完这波升级，识图模式又悄没声儿地上线了。没有发布会，没有通稿，一个研究员在社交平台上发了条消息，删掉，然后功能就出现在 App 里了。

典型的 DeepSeek 风格。

测试很简单：上传一张桂林象鼻山的照片，上面没有任何文字。

DeepSeek V4 给出了地标名称，描述了形态特征，还推理出了地理位置。

这不是”图片里有文字，我帮你读出来”那种能力。这是真正的视觉理解——它”看”到了画面内容，并在知识库中做了匹配和推理。

说白了，国内头部大模型里最后一个不支持看图的选手，终于补上了这块短板。

DeepSeek 从一开始就走了一条和其他家不太一样的路。

通义千问、文心一言、Kimi、智谱 GLM——这些竞品从早期就开始做多模态，图文混合输入是标配。而 DeepSeek 把精力集中在文本推理和编程能力上，硬是把纯文本模型做到了行业第一梯队。

这种选择在当时是有争议的。很多人觉得 2025 年了还不支持看图就是”瘸腿”。但 DeepSeek 的逻辑可能是：先把文本能力拉到极致，视觉能力可以在后续版本中渐进式补齐。

现在看，这个策略是成立的。V4 的文本能力已经在多个 benchmark 上证明了实力，而识图模式的加入让它不再有明确的短板。

DeepSeek 没有在视觉能力上从头构建一个多模态模型，而是在原有架构上扩展了视觉编码器。

这种做法有几个明显的优势：

用户体验是统一的。 不需要切换到另一个产品或模式，在同一个对话框里就能处理文本和图片任务。

迭代速度更快。 不需要等 V5 版本，现有的架构就能扩展新能力。

成本控制更好。 增量训练的成本远低于从头训练一个多模态模型。

当然，这种渐进式方案也可能有一些限制——比如对复杂视觉推理任务的处理精度，可能需要更多迭代才能达到专门训练的多模态模型的水平。但至少，方向是对的。

识图模式目前还在灰度内测阶段，部分用户可能还没看到入口。官方建议没有看到”识图模式”图标的用户升级 App 到最新版本。

如果你已经在 App 里看到了这个图标——恭喜，你的 DeepSeek V4 已经解锁了最后一块拼图。