核心结论
阿里巴巴通义千问团队于 2026 年 5 月 1 日正式宣布与 Fireworks AI 达成战略合作。这是 Qwen 闭源权重模型首次通过阿里云以外的推理平台向全球分发,标志着 Qwen 从”中国开源领先”走向”全球闭源可用”的关键一步。
发生了什么
Qwen 官方在 X 平台发布公告,确认与 Fireworks AI 的合作将提供:
- 优化后的生产级部署:针对 Qwen 家族模型进行推理加速和显存优化
- 全模型覆盖:包括 Qwen3.5 397B A17B、Qwen3.6 系列等最新闭源权重模型
- 训练 + 推理双通道:不仅提供推理 API,还支持 SFT、DPO、RL 等微调工作流
- 256K 上下文窗口:支持长文本任务的 fine-tuning
此前,Qwen 的闭源权重模型(如 Qwen-Max、Qwen-Plus)仅能通过阿里云百炼平台调用。Fireworks AI 作为北美头部推理加速平台,以其低延迟和高吞吐著称,此次合作直接打破了地域限制。
为什么这一步重要
| 维度 | 合作前 | 合作后 |
|---|---|---|
| 访问方式 | 仅限阿里云百炼 | Fireworks AI + 阿里云双通道 |
| 全球延迟 | 海外用户需跨洋访问 | 北美/欧洲就近节点 |
| 推理优化 | 阿里云自有方案 | Fireworks 定制化推理栈 |
| 微调能力 | 百炼平台内 | SFT/DPO/RL 多范式支持 |
| 生态集成 | 阿里云生态 | 接入 LangChain/LlamaIndex 等 |
Qwen 在 LMSYS Arena 文本排行榜上以 1454 分紧随 GLM-5(1455 分),但海外开发者对 Qwen 的采用一直受限于访问门槛。此次合作直接解决了这个问题。
对开发者的实际意义
- 替代方案增加:如果你之前因为延迟或注册问题放弃使用 Qwen,现在可以通过 Fireworks AI 直接调用
- 成本比较窗口:同一模型现在有两个定价体系可对比,有利于选择最优方案
- 微调门槛降低:Fireworks 的训练平台支持 LoRA 和全参数微调,配合 256K 上下文,长文档处理场景的适配成本大幅下降
格局判断
Qwen 的全球化分发策略正在加速。从开源权重(Hugging Face 下载量已突破 10 亿)到闭源权重的第三方部署,Qwen 正在构建一个”开源引流 + 闭源变现”的双轨模式。
对于 Anthropic 和 OpenAI 而言,这意味着又一个强劲的竞争对手获得了全球分发能力——而且是在其价格极具竞争力的前提下。
行动建议
- 正在用 Qwen 的开发者:对比阿里云百炼和 Fireworks AI 的延迟与定价,可能有更优选择
- 考虑引入 Qwen 的团队:Fireworks AI 提供免费额度,可以先用其推理 API 做 POC
- 需要微调的:利用 Fireworks 的训练平台做 LoRA 微调,比自行搭建训练环境成本低一个数量级