发完 1M 上下文,转头就上了识图模式
DeepSeek 的更新节奏真的挺不讲道理的。
V4 带着 1M 上下文窗口刚发没几天,社区还没完全消化完这波升级,识图模式又悄没声儿地上线了。没有发布会,没有通稿,一个研究员在社交平台上发了条消息,删掉,然后功能就出现在 App 里了。
典型的 DeepSeek 风格。
不是 OCR,是真看懂了
测试很简单:上传一张桂林象鼻山的照片,上面没有任何文字。
DeepSeek V4 给出了地标名称,描述了形态特征,还推理出了地理位置。
这不是”图片里有文字,我帮你读出来”那种能力。这是真正的视觉理解——它”看”到了画面内容,并在知识库中做了匹配和推理。
说白了,国内头部大模型里最后一个不支持看图的选手,终于补上了这块短板。
为什么之前没有?
DeepSeek 从一开始就走了一条和其他家不太一样的路。
通义千问、文心一言、Kimi、智谱 GLM——这些竞品从早期就开始做多模态,图文混合输入是标配。而 DeepSeek 把精力集中在文本推理和编程能力上,硬是把纯文本模型做到了行业第一梯队。
这种选择在当时是有争议的。很多人觉得 2025 年了还不支持看图就是”瘸腿”。但 DeepSeek 的逻辑可能是:先把文本能力拉到极致,视觉能力可以在后续版本中渐进式补齐。
现在看,这个策略是成立的。V4 的文本能力已经在多个 benchmark 上证明了实力,而识图模式的加入让它不再有明确的短板。
渐进式多模态的好处
DeepSeek 没有在视觉能力上从头构建一个多模态模型,而是在原有架构上扩展了视觉编码器。
这种做法有几个明显的优势:
用户体验是统一的。 不需要切换到另一个产品或模式,在同一个对话框里就能处理文本和图片任务。
迭代速度更快。 不需要等 V5 版本,现有的架构就能扩展新能力。
成本控制更好。 增量训练的成本远低于从头训练一个多模态模型。
当然,这种渐进式方案也可能有一些限制——比如对复杂视觉推理任务的处理精度,可能需要更多迭代才能达到专门训练的多模态模型的水平。但至少,方向是对的。
灰度中,还没看到的用户别急
识图模式目前还在灰度内测阶段,部分用户可能还没看到入口。官方建议没有看到”识图模式”图标的用户升级 App 到最新版本。
如果你已经在 App 里看到了这个图标——恭喜,你的 DeepSeek V4 已经解锁了最后一块拼图。