Только выпустили 1M контекст — сразу добавили режим изображений
Темпы обновления DeepSeek по-честному безумные.
V4 с контекстным окном 1M только-только успел появиться, и сообщество ещё не переварило это обновление, как режим изображений тихо上线лся. Без пресс-конференций, без PR — исследователь опубликовал пост в соцсетях, удалил, и функция появилась в приложении.
Классический DeepSeek.
Не OCR. Он действительно понял.
Тест был простым: загрузили фотографию холма Слоновий Хвост в Гуйлине — ни одного слова на изображении.
DeepSeek V4 назвал достопримечательность, описал морфологические характеристики и вывел географическое положение.
Это не «в картинке есть текст, дайте прочитаю». Это настоящее визуальное понимание — модель «увидела» сцену и сопоставила с базой знаний.
Проще говоря: последняя крупная китайская LLM без зрения наконец заполнила этот пробел.
Почему этого не было раньше?
DeepSeek с самого начала пошёл другим путём.
Tongyi Qianwen, ERNIE, Kimi, Zhipu GLM — эти конкуренты добавили мультимодальный ввод на ранних этапах. DeepSeek сосредоточил энергию на текстовом рассуждении и кодировании, выведя чисто текстовую модель в первый эшелон.
Этот выбор тогда вызывал споры. Многие считали, что отсутствие поддержки изображений в 2025 году означает «хромую» модель. Но логика DeepSeek, вероятно, была такой: сначала выжать максимум из текста, потом постепенно добавить зрение.
Оглядываясь назад, стратегия сработала. Текстовые способности V4 доказаны на множестве бенчмарков, а режим изображений убирает последний очевидный пробел.
Преимущества инкрементального мультимодального подхода
DeepSeek не строил мультимодальную модель с нуля — расширил визуальный энкодер на существующей архитектуре.
Единый опыт. Не нужно переключать продукты или режимы — текст и изображения в одном диалоговом окне.
Быстрые итерации. Не нужно ждать V5 — существующая архитектура расширяет новые возможности.
Лучший контроль затрат. Инкрементальное обучение стоит намного дешевле, чем обучение мультимодальной модели с нуля.
Конечно, у этого подхода могут быть ограничения — сложные задачи визуального рассуждения могут потребовать больше итераций. Но направление, по крайней мере, правильное.
Всё ещё в сером запуске
Режим изображений в настоящее время находится на внутреннем тестировании. Официальная рекомендация: обновить приложение до последней версии.
Если вы уже видите значок «Режим изображений» — поздравляем, ваш DeepSeek V4 только что разблокировал последний кусочек.