DeepSeek V4 теперь видит — последняя чисто текстовая модель наконец догнала

DeepSeek V4 теперь видит — последняя чисто текстовая модель наконец догнала

Только выпустили 1M контекст — сразу добавили режим изображений

Темпы обновления DeepSeek по-честному безумные.

V4 с контекстным окном 1M только-только успел появиться, и сообщество ещё не переварило это обновление, как режим изображений тихо上线лся. Без пресс-конференций, без PR — исследователь опубликовал пост в соцсетях, удалил, и функция появилась в приложении.

Классический DeepSeek.

Не OCR. Он действительно понял.

Тест был простым: загрузили фотографию холма Слоновий Хвост в Гуйлине — ни одного слова на изображении.

DeepSeek V4 назвал достопримечательность, описал морфологические характеристики и вывел географическое положение.

Это не «в картинке есть текст, дайте прочитаю». Это настоящее визуальное понимание — модель «увидела» сцену и сопоставила с базой знаний.

Проще говоря: последняя крупная китайская LLM без зрения наконец заполнила этот пробел.

Почему этого не было раньше?

DeepSeek с самого начала пошёл другим путём.

Tongyi Qianwen, ERNIE, Kimi, Zhipu GLM — эти конкуренты добавили мультимодальный ввод на ранних этапах. DeepSeek сосредоточил энергию на текстовом рассуждении и кодировании, выведя чисто текстовую модель в первый эшелон.

Этот выбор тогда вызывал споры. Многие считали, что отсутствие поддержки изображений в 2025 году означает «хромую» модель. Но логика DeepSeek, вероятно, была такой: сначала выжать максимум из текста, потом постепенно добавить зрение.

Оглядываясь назад, стратегия сработала. Текстовые способности V4 доказаны на множестве бенчмарков, а режим изображений убирает последний очевидный пробел.

Преимущества инкрементального мультимодального подхода

DeepSeek не строил мультимодальную модель с нуля — расширил визуальный энкодер на существующей архитектуре.

Единый опыт. Не нужно переключать продукты или режимы — текст и изображения в одном диалоговом окне.

Быстрые итерации. Не нужно ждать V5 — существующая архитектура расширяет новые возможности.

Лучший контроль затрат. Инкрементальное обучение стоит намного дешевле, чем обучение мультимодальной модели с нуля.

Конечно, у этого подхода могут быть ограничения — сложные задачи визуального рассуждения могут потребовать больше итераций. Но направление, по крайней мере, правильное.

Всё ещё в сером запуске

Режим изображений в настоящее время находится на внутреннем тестировании. Официальная рекомендация: обновить приложение до последней версии.

Если вы уже видите значок «Режим изображений» — поздравляем, ваш DeepSeek V4 только что разблокировал последний кусочек.