阿里千问 Qwen3.6 系列近期开源,包含 Qwen3.6-27B(稠密模型)和 Qwen3.6-35B-A3B(MoE 混合专家模型)。这一轮更新在代码能力、上下文窗口和架构效率上都有明显提升,是目前开源社区最值得关注的模型发布之一。
模型规格
| 参数 | Qwen3.5-27B | Qwen3.6-27B | Qwen3.6-35B-A3B |
|---|---|---|---|
| 架构 | 稠密 | 稠密 | MoE(激活 3B) |
| 上下文 | 默认 | 262K tokens | 262K tokens |
| 扩展上下文 | — | 最高 101 万 tokens | 最高 101 万 tokens |
| 注意力 | 标准 | MLA + Gated DeltaNet | MLA + Gated DeltaNet |
Qwen3.6 系列采用了 MLA(多头潜在注意力)和 Gated DeltaNet 混合架构,这意味着在推理时可以用更少的激活参数达到更好的效果。35B-A3B 版本总参数 35B,但每次推理只激活 3B 参数,部署成本接近 3B 模型,性能却接近 30B+ 级别。
基准成绩
在 SWE-bench Verified(代码 Agent 能力)上:
| 模型 | SWE-bench Verified |
|---|---|
| Qwen3.5-27B | 75.0 |
| Qwen3.5-397B-A17B | 76.2 |
| Qwen3.6-35B-A3B | 接近 Claude 4.5 Opus 水平 |
| Claude 4.5 Opus | 参照基准 |
| Gemma4-31B | 52.x |
Qwen3.6-35B-A3B 的代码 Agent 能力已经接近 Claude 4.5 Opus,这是开源模型在该维度上首次逼近闭源旗舰的水平。而 Qwen3.6-27B 稠密版本也在 SWE-bench Verified 上保持了 75 分以上的成绩,显著领先同参数级别的 Gemma4-31B。
社区实测还显示,在前端代码生成和 UI 开发场景下,Qwen3.6 Max 预览版的表现甚至超过了 Claude,在后端和复杂逻辑推理上 Claude 仍占优势。这说明 Qwen3.6 在不同任务类型上的能力分布并不均衡。
与替代方案对比
对于需要本地部署或成本敏感的团队,Qwen3.6 的竞争格局大致如下:
- 相比 Llama 3 系列: Qwen3.6 在中文能力和代码能力上明显领先,多语言支持也更完善。
- 相比 Gemma 4 系列: Qwen3.6-27B 在 SWE-bench 上比 Gemma4-31B 高出约 23 分,代码能力差距显著。
- 相比 DeepSeek 系列: DeepSeek 在推理成本上有优势,但 Qwen3.6 的上下文窗口和中文理解更出色。
- 相比闭源模型: Qwen3.6-35B-A3B 的代码能力接近 Claude 4.5 Opus,但长上下文理解和多模态能力仍有差距。
快速上手
使用 Hugging Face Transformers:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3.6-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = "用 Python 实现一个快速排序"
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
硬件需求:
- Qwen3.6-27B(稠密):推荐 2×A100 80GB 或 4×A6000 48GB
- Qwen3.6-35B-A3B(MoE):由于只激活 3B 参数,单卡 A100 40GB 即可运行
值得观察的点
Qwen3.6 系列的发布传递了几个信号:
- MoE 架构成熟度提升。 35B 总参数仅激活 3B 就能接近 Claude 4.5 Opus 的代码能力,说明混合专家架构正在从”有潜力”走向”真正可用”。
- 中文场景优势。 Qwen3.6 在中文理解和生成上的投入是国外模型没有的,对于以中文为主要工作语言的团队来说,这是值得优先考虑的选项。
- 前端代码的意外优势。 社区实测显示 Qwen3.6 在前端代码生成上优于 Claude,这个结果值得进一步验证——如果确认,对 Web 开发团队来说是一个实用的发现。
主要来源: