長文コンテキスト対決：百万トークンウィンドウは本当に使えるのか

結論

百万トークンコンテキストは「百万トークンで使える」ことを意味しない。GPT-5.5が現在最も信頼性の高い長文コンテキスト検索モデル（MRCR @ 1M 74%）、DeepSeek V4とGemini 2.5 Proは中間（約50-60%）、Claude Opus 4.7は大ウィンドウで弱い（32.2%）。

文書全体や大型コードベースを理解させることがコアニーズなら、GPT-5.5が現在最も信頼できる選択。

テスト次元

検索精度

MRCR（Multi-Reference Context Retrieval）——100万トークンでの重要情報定位能力：

モデル	MRCR @ 1M	説明
GPT-5.5	74%	Haystackの中の針を見つける能力が最高
Gemini 2.5 Pro	~60%	堅実だが詳細の取りこぼしあり
DeepSeek V4	~50%	使えるが複雑なクエリで情報消失
Claude Opus 4.7	32.2%	大ウィンドウで注意力が分散

コンテキスト減衰

すべてのモデルで「減衰効果」が存在——文書の先頭と末尾の情報は保持されやすく、中間部分は見落とされがち：

GPT-5.5: 減衰が最も緩やか、中間セクションの保持率が显著に高い
Gemini 2.5 Pro: 先頭・末尾は優秀、中間は中等度の減衰
Claude Opus 4.7: 長文コンテキストは訓練の優先事項ではない様子、減衰が激しい

新技術動向

AMDがHyLo（Hybrid Long-context）アーキテクチャ論文を発表。事前学習後に低コストで長文コンテキスト能力を追加可能、ショートコンテキスト品質の低下は最小限。使用可能コンテキストを200万トークンに拡張。

長文コンテキスト対決：百万トークンウィンドウは本当に使えるのか

結論

テスト次元

検索精度

コンテキスト減衰

新技術動向

おすすめ

主な情報源

結論

テスト次元

検索精度

コンテキスト減衰

新技術動向

おすすめ

主な情報源

関連コンテンツ

Kimi K2.6 が Design Arena で首位獲得：月之暗面が 3D デザイン領域ですべての米国モデルを上回る

Qwen 3.6 Max BS Benchmark評価：反ハルシネーション能力が全OpenAIモデルを上回る

Oxford/LLNL連鎖推論ベンチマーク：GPT単体95.7%、連鎖後は9.83%に急落