如果你已经在 Mac 上玩过本地模型,大概率是这个工具开始的:
Ollama
它确实很优秀:一条命令拉模型开箱即用支持多种开源模型(Qwen / gpt-oss / deepseek / llama4 / chatglm)但如果你最近在关注它的更新方向,会发现一个明显趋势:Ollama 正在越来越倾向于 Cloud 方案,他正在从“本地工具”向“平台服务”转型,很多开源模型,不再第一时间提供本地模型,而是先提供Coude版本,过一段时间再提供本地运行版本,甚至,一直都不提供本地可运行版本。
一、Ollama 背后的本质:GGUF + llama.cpp + MPS
Ollama本质上是 llama.cpp 项目的一个封装,在macOS下可以通过MPS的技术提升推理效率,他所使用的模型格式基本都是GGUF的格式。然后提供了一套很好的搜索服务,可以方便地使用和管理模型。而macOS下,最佳的推理框架,并非基于MPS(基于PyTorch的性能改进),而是基于MLX框架。
二、苹果原生框架 MLX
MLX 的杀手锏是统一内存的极致利用。在传统的 MPS/PyTorch 中,数据往往需要在不同的设备内存空间中“倒手”。而 MLX 认为“数组就在内存里,谁想算谁就去拿”,彻底消除了数据移动的延迟。MLX 的核心优势原生为 Apple Silicon 设计GPU / 内存调度更高效不依赖 CUDA更适合长期运行MLX 很强,但直接使用会遇到问题:模型转换复杂推理流程不统一不方便做服务而 oMLX 这个产品,则很好地解决了上面这些问题:✅ 简化模型加载✅ 标准化推理流程✅ 易于封装 API✅ 更适合接入 OpenClaw而一旦 OpenClaw接入 oMLX,即可:✅ 完全离线运行✅ 无 Token 成本(真正自由)✅ 响应速度稳定✅ 可长期运行 Agent
三、oMLX 安装和使用
下面,就通过一个录屏来感受 oMLX 从安装到使用的全过程:
- 从官网 https://omlx.ai/ 下载文件、安装
- 打开后启动服务、下载模型
- 等模型下载完成,开始使用
在M4 Pro的Mac mini机型上,速度可以跑到 50+ token/s,M2 Ultra上,速度更可以达到 69 token/s,作为OpenClaw的基础模型,完全可以胜任。模型选择的是 Qwen3.5-35B-A3B-8bit 版本,是一个MOE模型,实际激活版本为3B,用来给 OpenClaw 使用,刚刚好。如果是编程任务,可以使用 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit 这个模型,配置到OpenCode,也是完全够用的。