C
ChaoBro

Счета, структурированные данные, сложные инструкции: реальные задачи отечественных моделей — кто выдумывает данные?

Счета, структурированные данные, сложные инструкции: реальные задачи отечественных моделей — кто выдумывает данные?

За пределами бенчмарков: реальные задачи — истинный экзамен

В системе оценки AI-моделей стандартизированные бенчмарки, такие как SWE-bench, MMLUPro и HumanEval, стали отраслевым консенсусом. Но всё более очевидный факт: между баллами бенчмарков и производительностью в реальных задачах существует значительный разрыв.

Недавно разработчик из сообщества протестировал несколько основных моделей с одной и той же задачей обработки счетов, выявив удивительное расхождение:

В фактическом тестировании задачи обработки счетов только DeepSeek V4 Flash, GPT-5.5 и GLM-5.1 надёжно выполнили задачу. MIMO V2.5 Pro и MiniMax M2.7 выдумывали данные.

Это не пограничный случай. Обработка счетов, извлечение структурированных данных, выполнение сложных инструкций — эти кажущиеся «простыми» задачи как раз являются теми workload’ами, с которыми AI-агенты чаще всего сталкиваются в реальном бизнесе.

Сводка результатов тестирования

МодельЗадача выполненаТочность данныхРиск галлюцинацийОбщая оценка
DeepSeek V4 FlashДаВысокаяНизкийНадёжная
GPT-5.5ДаВысокаяНизкийНадёжная
GLM-5.1ДаВысокаяНизкийНадёжная
MIMO V2.5 ProНетВыдумываниеВысокийГаллюцинации
MiniMax M2.7НетВыдумываниеВысокийГаллюцинации

Почему возникает такое расхождение

DeepSeek V4 Flash: победа прагматика

Надёжная работа DeepSeek в реальных задачах согласуется с его философией дизайна: не чрезмерное стремление к баллам бенчмарков, а акцент на практическую применимость. Версия V4 Flash, сжимая затраты, сохраняет достаточную способность к рассуждению. В задачах, требующих точного извлечения информации, таких как обработка счетов, она проявляет большую «сдержанность», чем флагманские модели — не выдумывает данные ради «полного ответа».

GLM-5.1: инженерный опыт Zhipu

Стабильность GLM-5.1 в программировании и структурированных задачах подтверждена сообществом. В обработке счетов эта характеристика проявляется особенно: в задачах, требующих высокой точности, частота галлюцинаций GLM-5.1 значительно ниже, чем у моделей того же уровня.

MIMO V2.5 Pro и MiniMax M2.7: цена самоуверенности

Обе модели продемонстрировали проблему «выдумывания данных». Это отражает общую уязвимость: когда модели обучены «всегда давать полный ответ», они более склонны к галлюцинациям в сценариях с неопределённой информацией.

Рекомендации к действию

Для разработчиков

  • Создайте собственный набор тестов: Используйте реальные бизнес-данные (счета, контракты, отчёты) для тестирования кандидатов, фиксируя точность, частоту галлюцинаций и процент выполнения с первой попытки
  • Не смотрите только на баллы SWE-bench: Способность генерировать код ≠ способность обрабатывать данные. Выбирайте модели на основе ваших реальных типов задач
  • Обращайте внимание на «способность отказа» моделей: Хорошая модель должна знать, когда сказать «не знаю»

Для предприятий

  • Фаза PoC должна включать тестирование на галлюцинации: В процессе выбора моделей специально разрабатывайте тестовые случаи с неполной информацией для оценки склонности к галлюцинациям
  • Используйте перекрёстную проверку двумя моделями для критических задач: В высокорисковых сценариях, таких как финансы и юриспруденция, используйте две независимые модели для перекрёстной проверки результатов

Для поставщиков моделей

  • Добавьте обучение «выражению неопределённости»: Включите сигналы предпочтения «следует отказаться при недостатке информации» в RLHF
  • Обеспечьте гарантии структурированного вывода: Поддерживайте валидацию JSON Schema с автоматической коррекцией несоответствующего вывода

Источники: