C
ChaoBro

SubQ 获 $2900 万押注 12M 上下文,稀疏注意力路线之争正式开打

SubQ 获 $2900 万押注 12M 上下文,稀疏注意力路线之争正式开打

核心结论

AI 基础设施赛道出现了一个清晰的岔路口:面对超长上下文需求,行业正在分裂为两种截然不同的技术路线。

路线一(垂直整合):SubQ 拿 $2900 万,从底层重新训练一个支持 1200 万 token 上下文的模型。

  • 风险大、回报大——如果成功,性能和效率都可控
  • 但需要大量算力和数据,且只能服务自家模型

路线二(水平嵌入):evermind 的 MSA(Multi-Scale Attention)方案,给主流模型加记忆层。

  • 谁的模型都能用,无需重新训练
  • 但依赖宿主模型本身的注意力机制兼容性

社区讨论一针见血:「2900 万美金做 12M context,侧面证明整个行业都开始相信稀疏注意力是 dense attention 的解药。」

为什么是稀疏注意力?

要理解这个争论,得先回到问题本身:

传统 Transformer 的 dense attention 机制在长上下文场景下面临两个硬约束:

  1. 计算复杂度 O(n²)——上下文翻倍,计算量翻四倍
  2. KV Cache 显存爆炸——12M token 的 KV Cache 需要数百 GB 显存

密集注意力在 128K 以下工作良好,但超过百万 token 后,成本和延迟都不可接受。

稀疏注意力的核心思路是:不是所有 token 对所有 token 都重要。 通过有选择地计算注意力,可以在保持精度的同时把复杂度降到接近 O(n)。

两条路线拆解

SubQ:重训一个模型

SubQ 选择了最激进的路——从零开始训练一个原生支持 1200 万 token 上下文的模型

  • 优势:注意力机制可以针对长上下文做端到端优化,无需向后兼容
  • 劣势:$2900 万在模型训练领域不算多,容错空间极小
  • 风险:如果训练过程中发现架构有问题,沉没成本巨大

值得注意的是,SubQ 的 API 与其产品深度绑定,走的是「模型即服务」路线。

evermind MSA:给主流模型加记忆

evermind 的 Multi-Scale Attention 选择了另一条路——不碰模型权重,而是在推理时外挂一个记忆层

  • 优势:兼容 Claude、GPT、Gemini 等主流模型,客户无需切换模型供应商
  • 劣势:性能上限受宿主模型限制,本质上是「打补丁」方案
  • 风险:如果主流模型自己加了长上下文能力,MSA 的差异化价值会被削弱

行业信号

这笔融资透露了几个值得关注的信号:

  1. 稀疏注意力正在从学术概念变成商业赛道——投资人愿意为「注意力机制创新」买单,而不仅仅是「更大的模型」
  2. 12M 上下文正在成为新的标杆——在此之前,1M token(Claude)、2M token(Gemini)是公开的上限,12M 是一个数量级跃升
  3. 路线之争还没有赢家——这和当年卷积 vs Transformer 的故事很像,早期多路线并行是健康的

对开发者的影响

需求场景推荐路线理由
需要极致长上下文性能SubQ(如果训练成功)原生稀疏注意力,端到端优化
想用现有模型 + 长记忆evermind MSA无需切换模型,即插即用
成本敏感观望两条路线都在早期,价格尚未透明

结论

$2900 万不是大数目,但它标志着AI 基础设施的竞争维度正在下移——从「谁的模型参数更大」转向「谁的注意力机制更聪明」。

稀疏注意力是否真的是 dense attention 的终极解药?答案可能不在今天,但这场融资至少说明:有人愿意用真金白银去赌。