まず結論から
以前「サイバーセキュリティ分野の画期的成果」と包装されたMythos Previewが、最新の独立評価でOpenAIのGPT-5.5に追いつかれました。これはGPT-5.5の逆転ではなく、業界全体のシグナルです:サイバーセキュリティシナリオにおける大規模モデル間の能力差が急速に縮小しています。
テスト背景
| 次元 | テスト内容 | 重要度 |
|---|---|---|
| 脆弱性発見 | 指定コードからセキュリティ脆弱性を特定 | ⭐⭐⭐ |
| 攻撃チェーン構築 | 複数ステップの侵入計画を生成 | ⭐⭐⭐ |
| 防御提案 | 既知脆弱性に対する修復提案 | ⭐⭐ |
重要な発見
1. 差の消滅
Mythos Previewは「既知の全モデルを上回る」と主張していましたが、今回のテストでは:
- 脆弱性発見タスクでGPT-5.5がMythosと同等レベルに到達
- 攻撃チェーン構築において、両者に統計的有意差なし
- 防御提案の質でGPT-5.5がやや優位
選択アドバイス
サイバーセキュリティAIツールを評価中の企業向け:
- 「独占的なセキュリティ能力」にプレミアムを支払わない
- 統合能力に注目:既存SOCワークフロー、SIEMシステムへの組み込み可否
- 監査可能性を重視:セキュリティ判断には追跡可能性が必要
- デュアルモデル検証戦略:高风险操作には2つのモデルでクロス検証