SubQ 获 $2900 万押注 12M 上下文，稀疏注意力路线之争正式开打

核心结论

AI 基础设施赛道出现了一个清晰的岔路口：面对超长上下文需求，行业正在分裂为两种截然不同的技术路线。

路线一（垂直整合）：SubQ 拿 $2900 万，从底层重新训练一个支持 1200 万 token 上下文的模型。

路线二（水平嵌入）：evermind 的 MSA（Multi-Scale Attention）方案，给主流模型加记忆层。

社区讨论一针见血：「2900 万美金做 12M context，侧面证明整个行业都开始相信稀疏注意力是 dense attention 的解药。」

要理解这个争论，得先回到问题本身：

传统 Transformer 的 dense attention 机制在长上下文场景下面临两个硬约束：

密集注意力在 128K 以下工作良好，但超过百万 token 后，成本和延迟都不可接受。

稀疏注意力的核心思路是：不是所有 token 对所有 token 都重要。 通过有选择地计算注意力，可以在保持精度的同时把复杂度降到接近 O(n)。

SubQ 选择了最激进的路——从零开始训练一个原生支持 1200 万 token 上下文的模型。

值得注意的是，SubQ 的 API 与其产品深度绑定，走的是「模型即服务」路线。

evermind 的 Multi-Scale Attention 选择了另一条路——不碰模型权重，而是在推理时外挂一个记忆层。

这笔融资透露了几个值得关注的信号：

$2900 万不是大数目，但它标志着AI 基础设施的竞争维度正在下移——从「谁的模型参数更大」转向「谁的注意力机制更聪明」。

稀疏注意力是否真的是 dense attention 的终极解药？答案可能不在今天，但这场融资至少说明：有人愿意用真金白银去赌。