Ключевые технические открытия
Инновация 1: Система гибридного сжатого внимания
| Параметр | Стандартное Attention | Гибридное сжатие | Улучшение |
|---|---|---|---|
| Сложность | O(n²) | O(n × log n) | ~10-100x |
| Память | Полный KV Cache | Послойное сжатие | Сокращение 60-80% |
Инновация 2: Оптимизатор Muon
Adam: Поэлементная адаптивная скорость обучения
Muon: Матрично-структурированное направление оптимизации
Оценка сообщества: ускорение на 15-25% — экономия тысяч GPU-часов.
Вывод
Инновационный путь DeepSeek-V4 — это архитектурная инновация, а не гонка масштабов.