GENERAL365 ベンチマークリリース:汎用推論能力の新基準

GENERAL365 ベンチマークリリース:汎用推論能力の新基準

結論

GENERAL365は2026年4月27日にリリースされた新推理ベンチマーク。K-12知識範囲内で高難度推理問題を解くLLMの能力をテスト。365問すべて人工策划、複雑な制約・ネスト論理・意味的干渉の3タイプをカバー。現最強モデルは10%未満—既存大モデルの「純推理」能力は人間レベルに遠く及ばない。

ベンチマーク設計

特徴MMLU / GSM8KAIME / FrontierMathGENERAL365
知識依存大量専門知識数学競技レベルK-12基礎知識
出典自動筛选競技真题365問人工策划
テスト目標知識掌握度数学深度推理汎用論理推理

3つのテスト次元

  1. 複雑な制約:複数の相互制約条件を同時に追跡
  2. ネスト論理:多層ネスト関係の条件
  3. 意味的干渉:誤解を招く情報で注意力をテスト

選択ガイド

役割活用法
モデルベンダー内部評価体系に組み込み、推論能力の向上を追跡
研究者失敗パターンを分析、推論能力の具体的な短板を特定
開発者複雑論理が関わる场景(法務・監査)では人間の審査層を設計
企業購買GENERAL365スコアをモデル選定参考—5%未満は高論理密度業務に不適

出典