Вывод
GENERAL365, выпущенный 27 апреля 2026 года, — новый бенчмарк, тестирующий способность LLM решать сложные логические задачи в пределах знаний K-12. 365 задач составлены вручную. Лучшие модели набирают менее 10% — способность современных LLM к чистому рассуждению далека от человеческого уровня.
Дизайн бенчмарка
| Характеристика | MMLU / GSM8K | AIME / FrontierMath | GENERAL365 |
|---|---|---|---|
| Необходимые знания | Экспертные | Олимпиадная математика | Базовые K-12 |
| Источник | Авто-сбор | Олимпиадные задачи | 365 ручных задач |
| Тестирует | Знания | Глубину математики | Общую логику |
Три измерения:
- Сложные ограничения: Множественные взаимоограничивающие условия
- Вложенная логика: Многоуровневые вложенные условия
- Семантические помехи: Ложная информация тестирует фильтрацию
Рекомендации
| Роль | Применение |
|---|---|
| Вендоры моделей | Включить в внутреннюю оценку, отслеживать прогресс |
| Исследователи | Анализировать паттерны ошибок |
| Разработчики | Для сценариев с высокой логикой добавить человеческую проверку |
| Корпоративные покупатели | GENERAL365 < 5% — не подходит для задач с высокой плотностью логики |