Claude BioMysteryBench評価：AIは専門家を困惑させる生物学難題を解決できるか

結論

Anthropicは2026年4月29日、BioMysteryBench——実際の生物データ分析能力を評価する新基準——をリリースした。この基準には99の問題が含まれ、実際の生物情報学研究タスクから改编されている。

重要な発見：99問のうち23問は人類の専門家チームも歯が立たなかった。Claudeの最新モデルはこれらの難題の約30%を解決し、残りの大部分も解決した。これはAIが科学研究補助において新たな段階に到達したことを示している。

BioMysteryBenchは伝統的な学術ベンチマークとは異なり、実際の未解決生物情報学研究問題を使用する。テスト方式は「選択問題」や「既知の答えの问答」ではなく、モデルに創造的な解決策を提示させる。

99の問題は2つのカテゴリに分かれる：

この設計は科学研究の実際のシナリオを模倣している：大部分の問題には答えがあるが、少数の重要な問題が真の挑戦である。

問題カテゴリ	数	Claude解決率
専門家が解ける	76	大部分解決
専門家の難題	23	約30%

23の専門家難題の中で、Claude最新モデルは約30%を解決した。つまり、AIは人類の専門手ができなかった約7問で実行可能な解決策を見つけたことになる。

Claudeの生物情報学分析における性能は、AIが「補助ツール」から「協力者」の役割に移行しつつあることを示している：

ただし注意が必要：AIが提示した解決策は依然として人類の専門家の検証が必要である。30%の解決率は、70%の問題が依然として人類の知恵を必要とすることを意味している。