C
ChaoBro

Poolside Laguna XS.2:33B 参数 MoE 编程模型,Mac 上就能跑的 Agent 级代码智能体

Poolside Laguna XS.2:33B 参数 MoE 编程模型,Mac 上就能跑的 Agent 级代码智能体

GitHub Trending 和 Hugging Face 双榜热榜出现了一个值得 Agent 开发者关注的项目——Poolside Laguna XS.2。这不是又一个”大参数刷榜”的故事,而是一条截然不同的技术路线:把 Agent 级编程模型塞进一台消费级 Mac

Laguna XS.2:33B 总参,3B 激活

Laguna XS.2 来自 Poolside(一家专注 AI 编程助手的公司),是一个 33B 总参数 / 3B 激活参数的 MoE 模型。256 个专家 + 1 个共享专家,每次推理只激活约 3B 参数。

关键指标:

维度Laguna XS.2对比对象
SWE-bench Verified68.2%超过 Gemma 4 31B IT(52.0%)
SWE-bench Multilingual62.4%超过 Devstral Small 2(55.7%)
SWE-bench Pro44.5%超过 Gemma 4 31B IT(35.7%)
Terminal-Bench 2.030.1%超过 Devstral Small 2(22.5%)

注意这个对比基准——Gemma 4 31B IT 是 Google 的旗舰开源编程模型,Devstral Small 2 是 Mistral 的编程专用模型。Laguna XS.2 在 SWE-bench 系列上全面压制了它们。

架构亮点:滑动窗口注意力 + 混合思考

Laguna XS.2 的架构设计有几个值得关注的工程决策:

滑动窗口注意力(SWA):40 层中 30 层使用滑动窗口注意力(窗口大小 512 token),只有 10 层使用全局注意力。3:1 的比例通过 sigmoid 门控和逐层旋转缩放实现。这意味着 KV cache 大幅减少——长上下文场景下的内存压力显著降低。

交错式思考(Interleaved Thinking):模型支持在工具调用之间进行”思考”,而且可以按请求开启或关闭。这解决了编程 Agent 的核心痛点:不是所有步骤都需要深度推理,有时候快速执行比深度思考更高效。

Muon 优化器:训练使用 Muon 优化器——这正是 Kimi 团队开源并被 DeepSeek V4 训练管线采用的优化器。国产开源技术的影响力再次得到印证。

FP8 KV Cache:KV cache 量化到 FP8,进一步降低内存占用。

本地部署:一台 Mac 就够了

这才是 Laguna XS.2 最大的卖点。33B 总参数听起来不小,但因为每次只激活 3B,加上 MoE 架构的稀疏性,36GB RAM 的 Mac(M2/M3 Pro)就能跑起来

# Ollama 一键部署
ollama run poolside/laguna-xs2

已上架 Ollama,意味着:

  • 不需要 GPU 集群,不需要云服务费
  • 代码数据不出本地,隐私有保障
  • 离线可用,断网环境照样工作

对于一个面向 Agent 的编程模型来说,本地部署意味着你可以把 Laguna XS.2 集成到 Claude Code、OpenClaw、Hermes Agent 等框架中,作为本地代码生成的后端。

训练管线:数据自动混合 + 异步离线 Agent RL

Poolside 在发布博客中透露了训练细节:

  1. 预训练阶段:使用代码和自然语言混合语料
  2. 后训练阶段:指令微调和偏好优化
  3. 强化学习阶段:异步离线 Agent RL(async off-policy agent RL)

特别值得注意的是第三步。Agent RL 直接在 Agent 工作流上进行强化学习,而不是在静态数据集上做 SFT。这意味着模型在训练阶段就”学会”了如何正确使用工具、如何规划多步任务、如何在工具调用之间做思考。

数据自动混合(data automixing)也是一个亮点——不需要人工标注数据配比,模型自动从不同数据源中学习最优混合策略。

与国产模型的对比

把 Laguna XS.2 放在当前国产编程模型的坐标系中看:

模型激活参数SWE-bench Verified部署方式
Laguna XS.23B68.2%本地 Mac
Qwen3.6-35B-A3B3B~65%本地/云端
DeepSeek V4 Flash18B~60%云端为主
Kimi K2.6~50B~70%云端为主

Laguna XS.2 在 SWE-bench Verified 上与 Qwen3.6-35B-A3B 接近,但后者在中文场景和多模态能力上更有优势。Kimi K2.6 分数最高,但需要云端部署。

差异化定位:Laguna XS.2 的优势不是绝对分数最高,而是在本地可部署的编程模型中分数最高。如果你需要数据不出本地、或者没有云端 API 预算,这是目前最好的选择。

三判断

信号:33B/3B MoE + SWA + 交错思考的组合,在本地编程模型中确实是一流的。SWE-bench Verified 68.2% 的成绩在同尺寸段没有对手。Apache 2.0 许可意味着商用无限制。

增量:Laguna XS.2 不是 Laguna XS.1 的简单迭代。异步离线 Agent RL 训练、交错思考机制、FP8 KV cache——这些都不是小改动,代表了编程模型训练方法论的演进。

噪音:Terminal-Bench 2.0 的 30.1% 分数不算高,说明在终端操作场景下还有改进空间。模型对英文优化较好,中文支持需要验证。目前社区生态还很新,工具链成熟度不如 Qwen 或 DeepSeek。

如何使用

# 方式一:Ollama(推荐)
ollama run poolside/laguna-xs2

# 方式二:vLLM
pip install vllm
python -m vllm.entrypoints.openai.api_server \
    --model poolside/Laguna-XS.2 \
    --tensor-parallel-size 1

# 方式三:Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "poolside/Laguna-XS.2",
    device_map="auto",
    torch_dtype="auto"
)
tokenizer = AutoTokenizer.from_pretrained("poolside/Laguna-XS.2")

适合场景:本地代码 Agent 后端、隐私敏感的代码审查、离线编程辅助、教育环境中的 AI 编程教学。

不适合场景:需要中文深度优化、需要多模态理解、需要超大规模并发服务。

总结

Laguna XS.2 代表了一个清晰的趋势:编程模型正在从”云端大模型”走向”本地智能体”。当一台 36GB Mac 就能运行 SWE-bench 68% 的 Agent 级编程模型时,开发者需要重新思考”AI 编程助手”的部署架构。

它不会取代 Qwen 或 DeepSeek——但它给了那些需要本地部署、数据隐私、离线能力的开发者一个真正可用的选项。在开源编程模型的版图上,Laguna XS.2 填上了”本地高性能”这个空白。

来源poolside/Laguna-XS.2 | Poolside Release Blog