菜单栏里跑一个 LLM 推理服务器——这个想法本身就很"Mac"。
omlx 本周 1362 新星,总量 14.3k。在 Python 语言分类下的 GitHub Trending 里排名靠前。1204 个 fork,说明不只是在看,有人在真用。
三个核心技术点
SSD 缓存:Apple Silicon 的统一内存架构有个固有瓶颈——大模型的权重装不下 RAM 的时候,性能断崖式下跌。omlx 用 SSD 做二级缓存,让模型加载和卸载的成本大幅降低。简单说,就是让一台 16GB 的 MacBook 能跑 30B 参数模型,而且切换速度在可接受范围内。
连续批处理(continuous batching):这不是新概念,vLLM 早就做了。但在 Mac 端把连续批处理做到菜单栏工具级别——omlx 可能是第一个。这意味着多个并发请求可以被高效地调度,而不是串行排队。
菜单栏管理:这点看似不起眼,但其实是用户体验的关键差异。不是开个终端窗口跑命令,而是从菜单栏直接控制模型加载、切换、监控。本地推理工具能不能被非技术人员接受,这个交互细节的分量比论文里的 benchmark 大得多。
谁在维护
contributor 列表里出现了 @claude——项目本身用 Claude 辅助开发。@jundot 是主要维护者,@lyonsno 和 @latent-variable 也有实质性贡献。
社区活跃度不错,但没有到一个"大厂在背后推"的程度。这意味着项目的演进方向更可能由社区需求驱动,而不是厂商的战略布局。
跟 Ollama / LM Studio 的比较
Mac 用户本地跑 LLM,现在有三个主流选择:
| 工具 | 核心定位 | 交互方式 | SSD 缓存 | 连续批处理 |
|---|---|---|---|---|
| Ollama | 通用推理服务器 | CLI + API | ❌ | ✅(部分) |
| LM Studio | 桌面 GUI | 图形界面 | ❌ | ❌ |
| omlx | 菜单栏服务器 | 菜单栏 + API | ✅ | ✅ |
omlx 的差异化很清晰:它是唯一一个把 SSD 缓存和连续批处理两个技术点同时做到 Mac 端的工具。
但 Ollama 的生态优势巨大——模型支持、社区文档、工具集成。omlx 要追赶的不是技术,是生态。
实际体验推测
我没有在 M 系列芯片上跑过 omlx,但从架构描述推断几个场景:
- 16GB M2/M3:SSD 缓存是关键。没有它,7B 以上模型基本跑不动。有了它,可以跑 13B-30B,速度取决于 SSD 读写性能。
- 32GB+ M2/M3 Max:RAM 够大,SSD 缓存的边际收益降低,但连续批处理对并发 API 请求的价值依然存在。
- M4 Ultra 级别:RAM 充裕,omlx 的价值更多在于菜单栏交互和 API 服务化。
值得跟的原因
omlx 解决的不是"能不能跑"的问题——Ollama 已经证明了 Mac 跑 LLM 是可行的。它解决的是**"能不能用得舒服"**的问题。
菜单栏交互降低了使用门槛,SSD 缓存扩展了可运行模型的上限,连续批处理提升了服务化场景下的吞吐。这三个点加起来,指向一个清晰的产品方向:让 Mac 成为本地 AI 推理的一等公民。
14.3k 星说明这个方向有人买账。但 1204 个 fork 里有多少是真正在生产环境用的,还需要观察。
如果 Apple 在接下来的 WWDC 上公布更多关于 Neural Engine 用于 LLM 推理的信息,omlx 这类工具的价值会被进一步放大。
主要来源:
- GitHub: github.com/jundot/omlx
- 项目 README 和技术文档