Даже ИИ-учителя «хромают» на слабых предметах: новое исследование показывает, что агенты-репетиторы на основе LLM дают наименее качественную обратную связь именно там, где она наиболее необходима

Что бы вы хотели, чтобы репетитор сделал, если ваш ребёнок застрял при решении математической задачи?

Не сказать ему: «Эта задача решена верно» — ведь он решил её неверно. Не произнести расплывчатую фразу: «Подумай ещё» — это бесполезно. Ему нужна точная, целенаправленная обратная связь: чёткое указание на то, где именно возникла ошибка, почему ученик так рассуждал и как следует скорректировать ход мысли.

В статье, опубликованной на arXiv («Confirming Correct, Missing the Rest: LLM Tutoring Agents Struggle Where Feedback Matters Most»), исследуется, как агенты-репетиторы на основе ИИ справляются с этой критически важной задачей — и результаты оказались неутешительными.

О чём исследование

Статью написали шесть авторов. Центральный вопрос работы: каково качество обратной связи от агентов-репетиторов на основе LLM в различных педагогических ситуациях?

Авторы разработали систематическую оценочную рамку, в которой учебный диалог делится на несколько типичных сценариев:

Подтверждение правильного ответа: ученик дал верный ответ, и агент должен подтвердить его и объяснить, почему он правилен.
Исправление ошибки: ученик допустил ошибку, и агент должен указать на неё, объяснить её причину и направить мышление в правильное русло.
Наведение на размышление: ученик застрял, но его подход в целом верен; агент должен дать подсказку, не раскрывая сразу решение.
Глубокий вопрос: ученик освоил базовый метод решения, и агент должен стимулировать более глубокое понимание и рефлексию.

Главный вывод: агенты «подводят» именно в решающий момент

Суть основного вывода исследования отражена в заголовке статьи: «Confirming Correct, Missing the Rest» («Подтверждаем верное — пропускаем всё остальное»).

Агенты на основе LLM демонстрируют высокие результаты в сценарии «подтверждения правильного ответа»: они точно определяют, верен ли ответ ученика, и дают обоснованные пояснения. Однако в сценарии «исправления ошибки» — том самом, где требуется самая высококачественная обратная связь — их эффективность заметно падает.

Конкретно, при исправлении ошибок агенты часто проявляют следующие проблемы:

Неверная оценка. Иногда ответ ученика частично верен, но содержит тонкую ошибку. Агент либо полностью одобряет его (пропуская ошибку), либо полностью отвергает («убивая» корректную часть ответа).

Недостаточное объяснение. Даже если агент правильно выявил ошибку, его пояснения зачастую остаются поверхностными — например, «здесь вы ошиблись в расчётах», вместо того чтобы указать: «вы ошиблись в расчётах, потому что ваше понимание концепции X искажено».

Слабая поддержка самостоятельного мышления. Хороший репетитор не просто указывает на ошибку, а помогает ученику самостоятельно прийти к правильному решению. Однако исследование показало, что агенты особенно слабы именно в этом аспекте: они либо сразу сообщают правильный ответ (лишая ученика возможности поразмыслить), либо дают слишком расплывчатые подсказки (которые ученик попросту не понимает).

Почему эта проблема особенно серьёзна

С педагогической точки зрения именно в этой ситуации — при ошибке ученика — качество обратной связи не должно быть ниже среднего.

Когда ученик отвечает верно, обратная связь играет второстепенную роль — достаточно простого подтверждения. Но когда он ошибается, качество обратной связи напрямую определяет дальнейший ход обучения. Точное исправление может помочь преодолеть когнитивный барьер; а расплывчатое или ошибочное — лишь усилить путаницу и даже закрепить ложное понимание.

Заголовок статьи «Missing the Rest» как раз и отражает эту дилемму: агенты успешно справляются с лёгкой частью задачи, но именно там, где они нужны больше всего — при ошибке ученика — оказываются «недоступны».

Связь с существующими продуктами ИИ-образования

На рынке сегодня представлено множество ИИ-репетиторов: Khanmigo от Khan Academy, Duolingo Max, различные ИИ-инструменты для изучения математики. Большинство из них построены на схожих технологиях LLM.

Результаты данного исследования ставят перед этими продуктами острый вопрос: насколько надёжен ваш ИИ-репетитор в критические моменты?

Ответить на него непросто. Оценка качества репетиторства требует не только анализа того, «что сказал агент», но и понимания того, «понял ли это ученик» и «улучшилось ли его понимание». Для этого нужны долгосрочные проспективные исследования, а не оценка отдельного диалога.

Моя оценка

Ценность данной статьи заключается в том, что она переносит исследования ИИ-образования с уровня «может ли ИИ обучать?» на уровень «в каких ситуациях ИИ обучает эффективно?»

Вопрос «Может ли ИИ быть учителем?» уже устарел. Сегодня ключевой вопрос звучит иначе: в каких педагогических ситуациях ИИ можно считать надёжным, а в каких — необходима поддержка человека-учителя?

Ответ, предложенный в статье, таков: ИИ надёжен при подтверждении и объяснении, но ненадёжен при исправлении ошибок и глубоком наведении на размышление. Это даёт практический ориентир для проектирования продуктов ИИ-образования: пусть ИИ берёт на себя те функции, которые он выполняет хорошо, а в своих слабых местах — интегрирует контроль и вмешательство человека-учителя.

С технической точки зрения пути улучшения также очевидны. Слабость агентов при исправлении ошибок во многом обусловлена врождённой особенностью LLM: они отлично генерируют плавный текст, но плохо справляются с точным логическим анализом. А исправление ошибки как раз требует такого анализа — необходимо точно определить, где именно в цепочке рассуждений произошёл сбой.

Будущие агенты-репетиторы, возможно, потребуют специализированного проектирования в этом направлении. Например, можно внедрить формальный модуль проверки рассуждений: перед тем как агент сформулирует обратную связь при исправлении ошибки, независимый логический верификатор будет проверять её точность.

Суть образования — не передача знаний, а тренировка мышления. Когда ИИ берёт на себя эту роль, ему требуется не просто улучшенная способность генерировать язык, а более глубокое понимание и развитые рассуждающие способности.

Основной источник:

arXiv:2605.16207 — LLM Tutoring Agents

О чём исследование

Главный вывод: агенты «подводят» именно в решающий момент

Почему эта проблема особенно серьёзна

Связь с существующими продуктами ИИ-образования

Моя оценка

Похожие материалы

CiteVQA: бенчмарк для интеллектуальной обработки документов от OpenDataLab, делающий каждую ссылку ИИ проверяемой

CLI-Anything набирает 1000 звёзд за неделю: как сделать всё ПО «Agent-Native» — новый подход команды из Гонконгского университета

MMSkills: Шанхайский университет Цзяотун разделил возможности визуального агента на «набор навыков» — новая парадигма мультимодальных ИИ-агентов