Вывод
Миллион токенов контекста не означает «пригодно при миллионе токенов». GPT-5.5 — самая надёжная модель для поиска в длинном контексте (MRCR @ 1M: 74%), DeepSeek V4 и Gemini 2.5 Pro — в середине (~50-60%), Claude Opus 4.7 слаб при больших окнах (32.2%).
Если нужно, чтобы модель поняла весь документ или крупную кодовую базу — GPT-5.5 сейчас самый надёжный выбор.
Параметры
Точность поиска
MRCR — способность находить ключевую информацию в сверхдлинном контексте. При 1 млн токенов:
| Модель | MRCR @ 1M | Примечание |
|---|---|---|
| GPT-5.5 | 74% | Лучший поиск «иголки в стоге сена» |
| Gemini 2.5 Pro | ~60% | Надёжно, но пропускает детали |
| DeepSeek V4 | ~50% | Пригодно, но сложные запросы теряют информацию |
| Claude Opus 4.7 | 32,2% | Значительное рассеяние внимания |
Затухание контекста
Все модели показывают эффект затухания — информация в начале и конце сохраняется лучше, середина часто теряется:
- GPT-5.5: Наиболее плавное затухание
- Gemini 2.5 Pro: Сильно на краях, умеренно в середине
- Claude Opus 4.7: Длинный контекст не был приоритетом обучения
Новые технологии
AMD опубликовала архитектуру HyLo — доказано, что длинный контекст можно добавить после предобучения с минимальной потерей качества. Расширяет контекст до 2 млн токенов.
Рекомендации
Точный поиск в длинных документах: GPT-5.5.
Общее понимание: Любая флагманская модель — выбирайте самую дешёвую.
RAG vs Длинный контекст: Для «поиска конкретной информации в множестве документов» традиционный RAG надёжнее чистого длинного контекста.