DeepSeek V4 突然能看图了——最后一个纯文本的头部选手终于补上了

DeepSeek V4 突然能看图了——最后一个纯文本的头部选手终于补上了

发完 1M 上下文,转头就上了识图模式

DeepSeek 的更新节奏真的挺不讲道理的。

V4 带着 1M 上下文窗口刚发没几天,社区还没完全消化完这波升级,识图模式又悄没声儿地上线了。没有发布会,没有通稿,一个研究员在社交平台上发了条消息,删掉,然后功能就出现在 App 里了。

典型的 DeepSeek 风格。

不是 OCR,是真看懂了

测试很简单:上传一张桂林象鼻山的照片,上面没有任何文字。

DeepSeek V4 给出了地标名称,描述了形态特征,还推理出了地理位置。

这不是”图片里有文字,我帮你读出来”那种能力。这是真正的视觉理解——它”看”到了画面内容,并在知识库中做了匹配和推理。

说白了,国内头部大模型里最后一个不支持看图的选手,终于补上了这块短板。

为什么之前没有?

DeepSeek 从一开始就走了一条和其他家不太一样的路。

通义千问、文心一言、Kimi、智谱 GLM——这些竞品从早期就开始做多模态,图文混合输入是标配。而 DeepSeek 把精力集中在文本推理和编程能力上,硬是把纯文本模型做到了行业第一梯队。

这种选择在当时是有争议的。很多人觉得 2025 年了还不支持看图就是”瘸腿”。但 DeepSeek 的逻辑可能是:先把文本能力拉到极致,视觉能力可以在后续版本中渐进式补齐。

现在看,这个策略是成立的。V4 的文本能力已经在多个 benchmark 上证明了实力,而识图模式的加入让它不再有明确的短板。

渐进式多模态的好处

DeepSeek 没有在视觉能力上从头构建一个多模态模型,而是在原有架构上扩展了视觉编码器。

这种做法有几个明显的优势:

用户体验是统一的。 不需要切换到另一个产品或模式,在同一个对话框里就能处理文本和图片任务。

迭代速度更快。 不需要等 V5 版本,现有的架构就能扩展新能力。

成本控制更好。 增量训练的成本远低于从头训练一个多模态模型。

当然,这种渐进式方案也可能有一些限制——比如对复杂视觉推理任务的处理精度,可能需要更多迭代才能达到专门训练的多模态模型的水平。但至少,方向是对的。

灰度中,还没看到的用户别急

识图模式目前还在灰度内测阶段,部分用户可能还没看到入口。官方建议没有看到”识图模式”图标的用户升级 App 到最新版本。

如果你已经在 App 里看到了这个图标——恭喜,你的 DeepSeek V4 已经解锁了最后一块拼图。