MMSkills: Шанхайский Цзяотунский университет стремится научить визуальных агентов по-настоящему «видеть» и «действовать», а не просто заучивать наизусть

Направление визуальных агентов — масштабное, но не гигантское.

Масштабное — потому что почти все сценарии эмбоди-интеллекта, роботизированного манипулирования и взаимодействия с экраном не обходятся без него: агент должен сначала «понять изображение», чтобы решить, «что делать дальше». Но и не гигантское — поскольку на сегодняшний день большинство так называемых «визуальных агентов» по сути выполняют лишь сопоставление шаблонов: на вход подаётся изображение, на выходе — действие, а промежуточный этап «понимания» практически полностью полагается на то, насколько похожи текущие данные на примеры, встречавшиеся агенту в обучающей выборке.

Именно эту болевую точку и адресует работа Шанхайского Цзяотунского университета под названием MMSkills («К мультимодальным навыкам для универсальных визуальных агентов»).

Что такое «мультимодальный навык»

Центральная идея статьи предельно проста: по-настоящему универсальный визуальный агент не должен ограничиваться лишь «генерацией действия по изображению». Он должен овладевать «навыками» — структурированными, многократно переиспользуемыми и переносимыми между задачами мультимодальными единицами способностей.

Ключевое здесь — различие между «действием» и «навыком».

«Действие» — это атомарная операция: клик, перетаскивание, захват, перемещение. «Навык» — это структурированная последовательность: он объединяет несколько действий, адаптирует стратегию на основе визуальной обратной связи и выбирает разные варианты поведения в зависимости от контекста. Например, «открыть приложение» — это навык, который может включать цепочку действий: «найти значок → кликнуть → дождаться загрузки → подтвердить появление окна». При этом агенту не нужно каждый раз заново учиться этой последовательности.

Архитектура MMSkills как раз направлена на обучение агента таким структурированным мультимодальным навыкам, а не изолированным парам «наблюдение–действие».

Методология: обучение навыкам так, как учатся люди

В методологии статьи выделяются несколько важных особенностей:

Представление навыков. В MMSkills навык кодируется как мультимодальное представление — одновременно включающее визуальную информацию и последовательность действий. Это означает, что, обучаясь навыку, агент запоминает не просто «увидел A → выполнил B», а понимает: «при каких визуальных условиях, выполняя какую последовательность действий, достигается какой результат».

Композиция навыков. Освоенные навыки можно комбинировать. Это аналогично человеческому обучению: сначала вы осваиваете «открыть дверь», затем — «включить свет», после чего можете выполнить составную задачу «войти в комнату и включить свет», не обучаясь ей с нуля.

Обобщение между задачами. Это ключевая способность, которую MMSkills стремится продемонстрировать: могут ли усвоенные навыки применяться в задачах, с которыми агент не сталкивался во время обучения.

Отличия от существующих подходов

Современные методы обучения визуальных агентов в основном делятся на два типа:

Первый — end-to-end обучение, например, модели RT-2 или серия VLA, которые напрямую отображают изображение в действие. Преимущество таких подходов — простота, но недостатки — отсутствие интерпретируемости и крайне ограниченная переносимость полученных способностей на новые задачи.

Второй тип — планируемые подходы: сначала крупная языковая модель (LLM) принимает высокоуровневые решения, а затем вызывает нижележащие контроллеры для их исполнения. Такие схемы гибки, однако сильно зависят от зрительного понимания LLM — а именно в этой области современные LLM пока слабы: они поражают в языковых задачах, но всё ещё неспособны к тонкому визуальному анализу.

MMSkills выбирает третий путь: вводит абстракцию «навыка» на промежуточном уровне. Он не стремится к end-to-end простоте и не полагается на обобщающие способности LLM, а вместо этого систематически учит агента осваивать и комбинировать навыки, формируя тем самым фундамент его интеллектуальных возможностей.

Эксперименты и результаты

Статья содержит оценку на нескольких бенчмарках визуального взаимодействия. Результаты показывают, что MMSkills демонстрирует выдающиеся способности к обобщению между задачами: на задачах, не встречавшихся в процессе обучения, его производительность значительно превосходит как end-to-end подходы, так и решения, основанные на LLM.

Это подтверждает главную гипотезу работы: структурированное обучение навыкам обеспечивает гораздо более высокую степень обобщения, чем простое сопоставление шаблонов.

Личная оценка

Направление, выбранное в MMSkills, верное. Достижение истинной универсальности визуальных агентов невозможно путём «больше данных + больше параметров» — «грубой силы». Для этого необходимы структурированные представления знаний и композиционные единицы способностей — именно это и даёт абстракция «навыка».

Однако на данный момент в статье представлены преимущественно результаты на академических бенчмарках. Между академическими тестами и реальными приложениями лежит огромная пропасть. Визуальные входные данные в реальном мире намного сложнее, чем в экспериментальных наборах данных; определения и границы навыков также не столь чётки, как в бенчмарках.

Тем не менее, направление правильное. Когда агент перестаёт просто «делать то, что видит», а начинает по-настоящему владеть переиспользуемыми и композиционными навыками, универсальный визуальный интеллект делает свой первый существенный шаг вперёд.

Основной источник:

Hugging Face Daily Papers — MMSkills

Что такое «мультимодальный навык»

Методология: обучение навыкам так, как учатся люди

Отличия от существующих подходов

Эксперименты и результаты

Личная оценка

Похожие материалы

CiteVQA: бенчмарк для интеллектуальной обработки документов от OpenDataLab, делающий каждую ссылку ИИ проверяемой

CLI-Anything набирает 1000 звёзд за неделю: как сделать всё ПО «Agent-Native» — новый подход команды из Гонконгского университета

MMSkills: Шанхайский университет Цзяотун разделил возможности визуального агента на «набор навыков» — новая парадигма мультимодальных ИИ-агентов