C
ChaoBro

SubQ привлекла $29 млн на ставку в 12M контекст, начинается война разреженного внимания

SubQ привлекла $29 млн на ставку в 12M контекст, начинается война разреженного внимания

Главное в двух словах

В сфере AI-инфраструктуры появилась четкая развилка: когда речь заходит о сверхдлинном контексте, индустрия раскалывается на два радикально разных технических подхода.

Подход первый (вертикальная интеграция): SubQ привлекла $29 млн на обучение модели с нуля, поддерживающей контекст в 12 миллионов токенов.

  • Высокий риск, высокая отдача — в случае успеха и производительность, и эффективность контролируются
  • Но требуются огромные вычислительные ресурсы и данные, и обслуживать можно только собственную модель

Подход второй (горизонтальное встраивание): MSA (Multi-Scale Attention) от evermind добавляет слой памяти поверх мейнстримных моделей.

  • Работает с любой моделью, переобучение не требуется
  • Но потолок производительности ограничен совместимостью механизма внимания хост-модели

Сообщество сформулировало точно: «Двадцать девять миллионов долларов на 12M контекст — это доказывает, что вся индустрия теперь верит: разреженное внимание — это лекарство от плотного внимания.»

Почему разреженное внимание?

Чтобы понять эту дискуссию, начнём с самой проблемы:

Традиционный механизм плотного внимания (dense attention) в Transformer сталкивается с двумя жёсткими ограничениями в сценариях длинного контекста:

  1. Вычислительная сложность O(n²) — удвоение контекста означает учетверение вычислений
  2. Взрыв памяти KV Cache — KV Cache на 12 млн токенов требует сотен гигабайт видеопамяти

Плотное внимание прекрасно работает до 128K, но за миллион токенов и стоимость, и задержка становятся неприемлемыми.

Ключевая идея разреженного внимания: не каждый токен важен для каждого другого токена. Избирательно вычисляя внимание, можно сохранить точность, снизив сложность практически до линейной.

Два подхода в деталях

SubQ: переобучить модель

SubQ выбрала самый агрессивный путь — обучить модель с нуля, которая нативно поддерживает контекст в 12 миллионов токенов.

  • Преимущество: механизм внимания можно оптимизировать end-to-end для длинного контекста, обратная совместимость не нужна
  • Недостаток: $29 млн в мире обучения моделей — это немного, маржа для ошибки крайне узкая
  • Риск: если в процессе обучения обнаружится проблема с архитектурой, невозвратные затраты будут огромными

Что примечательно, API SubQ глубоко интегрирован с её продуктом — это подход «модель как сервис».

evermind MSA: добавить память к мейнстримным моделям

Multi-Scale Attention от evermind выбрала другой путь — не трогать веса модели, а подключить внешний слой памяти на этапе инференса.

  • Преимущество: совместимо с Claude, GPT, Gemini и другими мейнстримными моделями — клиентам не нужно менять провайдера модели
  • Недостаток: потолок производительности ограничен хост-моделью; по сути это решение-«заплатка»
  • Риск: если мейнстримные модели сами добавят возможности длинного контекста, дифференциация MSA будет размыта

Сигналы от индустрии

Этот раунд финансирования раскрывает несколько примечательных сигналов:

  1. Разреженное внимание переходит из академической концепции в коммерческое русло — инвесторы готовы платить за «инновации в механизме внимания», а не просто за «более крупные модели»
  2. 12M контекст становится новым бенчмарком — до этого 1 миллион токенов (Claude) и 2 миллиона (Gemini) были публичным потолком; 12 миллионов — это скачок на порядок
  3. Ни один из подходов пока не победил — как в истории CNN против Transformer: раннее параллельное развитие нескольких направлений это здорово

Что это значит для разработчиков

Сценарий использованияРекомендуемый подходПричина
Нужна экстремальная производительность длинного контекстаSubQ (если обучение удастся)Нативное разреженное внимание, end-to-end оптимизация
Хочу существующие модели плюс длинную памятьevermind MSAПереключение модели не требуется, подключай и работай
Чувствителен к стоимостиПодождатьОба подхода на ранней стадии, ценообразование пока непрозрачно

Вывод

$29 млн — не гигантская сумма, но она знаменует сдвиг: конкурентная ось AI-инфраструктуры смещается вниз — от «у чьей модели больше параметров» к «у кого механизм внимания умнее».

Является ли разреженное внимание поистине окончательным лекарством от плотного внимания? Ответа пока нет, но этот раунд финансирования как минимум доказывает: нашлись те, кто готов ставить на это реальные деньги.