GENERAL365: Новый бенчмарк общего логического мышления

Вывод

GENERAL365, выпущенный 27 апреля 2026 года, — новый бенчмарк, тестирующий способность LLM решать сложные логические задачи в пределах знаний K-12. 365 задач составлены вручную. Лучшие модели набирают менее 10% — способность современных LLM к чистому рассуждению далека от человеческого уровня.

Дизайн бенчмарка

Характеристика	MMLU / GSM8K	AIME / FrontierMath	GENERAL365
Необходимые знания	Экспертные	Олимпиадная математика	Базовые K-12
Источник	Авто-сбор	Олимпиадные задачи	365 ручных задач
Тестирует	Знания	Глубину математики	Общую логику

Три измерения:

Сложные ограничения: Множественные взаимоограничивающие условия
Вложенная логика: Многоуровневые вложенные условия
Семантические помехи: Ложная информация тестирует фильтрацию

Рекомендации

Роль	Применение
Вендоры моделей	Включить в внутреннюю оценку, отслеживать прогресс
Исследователи	Анализировать паттерны ошибок
Разработчики	Для сценариев с высокой логикой добавить человеческую проверку
Корпоративные покупатели	GENERAL365 < 5% — не подходит для задач с высокой плотностью логики

Вывод

Дизайн бенчмарка

Рекомендации

Источники

Похожие материалы

Kimi K2.6 возглавляет Design Arena: Moonshot AI превосходит все американские модели в 3D-дизайне

Обзор Qwen 3.6 Max BS Benchmark: способность к антигаллюцинациям превосходит все модели OpenAI

Бенчмарк цепочечного рассуждения Oxford/LLNL: GPT 95,7% по отдельности, коллапс до 9,83% в цепочке