C
ChaoBro

DeepSeek-V4: Гибридное сжатое внимание + оптимизатор Muon — как переписать эффективность обучения

DeepSeek-V4: Гибридное сжатое внимание + оптимизатор Muon — как переписать эффективность обучения

Ключевые технические открытия

Инновация 1: Система гибридного сжатого внимания

ПараметрСтандартное AttentionГибридное сжатиеУлучшение
СложностьO(n²)O(n × log n)~10-100x
ПамятьПолный KV CacheПослойное сжатиеСокращение 60-80%

Инновация 2: Оптимизатор Muon

Adam: Поэлементная адаптивная скорость обучения
Muon: Матрично-структурированное направление оптимизации

Оценка сообщества: ускорение на 15-25% — экономия тысяч GPU-часов.

Вывод

Инновационный путь DeepSeek-V4 — это архитектурная инновация, а не гонка масштабов.