如果你已经在 Mac 上玩过本地模型，大概率是这个工具开始的：

Ollama

它确实很优秀：一条命令拉模型开箱即用支持多种开源模型（Qwen / gpt-oss / deepseek / llama4 / chatglm）但如果你最近在关注它的更新方向，会发现一个明显趋势：Ollama 正在越来越倾向于 Cloud 方案，他正在从“本地工具”向“平台服务”转型，很多开源模型，不再第一时间提供本地模型，而是先提供Coude版本，过一段时间再提供本地运行版本，甚至，一直都不提供本地可运行版本。

一、Ollama 背后的本质：GGUF + llama.cpp + MPS

Ollama本质上是 llama.cpp 项目的一个封装，在macOS下可以通过MPS的技术提升推理效率，他所使用的模型格式基本都是GGUF的格式。然后提供了一套很好的搜索服务，可以方便地使用和管理模型。而macOS下，最佳的推理框架，并非基于MPS(基于PyTorch的性能改进)，而是基于MLX框架。

二、苹果原生框架 MLX

MLX 的杀手锏是统一内存的极致利用。在传统的 MPS/PyTorch 中，数据往往需要在不同的设备内存空间中“倒手”。而 MLX 认为“数组就在内存里，谁想算谁就去拿”，彻底消除了数据移动的延迟。MLX 的核心优势原生为 Apple Silicon 设计GPU / 内存调度更高效不依赖 CUDA更适合长期运行MLX 很强，但直接使用会遇到问题：模型转换复杂推理流程不统一不方便做服务而 oMLX 这个产品，则很好地解决了上面这些问题：✅ 简化模型加载✅ 标准化推理流程✅ 易于封装 API✅ 更适合接入 OpenClaw而一旦 OpenClaw接入 oMLX，即可：✅ 完全离线运行✅ 无 Token 成本（真正自由）✅ 响应速度稳定✅ 可长期运行 Agent

三、oMLX 安装和使用

下面，就通过一个录屏来感受 oMLX 从安装到使用的全过程：

从官网 https://omlx.ai/ 下载文件、安装
打开后启动服务、下载模型
等模型下载完成，开始使用

在M4 Pro的Mac mini机型上，速度可以跑到 50+ token/s，M2 Ultra上，速度更可以达到 69 token/s，作为OpenClaw的基础模型，完全可以胜任。模型选择的是 Qwen3.5-35B-A3B-8bit 版本，是一个MOE模型，实际激活版本为3B，用来给 OpenClaw 使用，刚刚好。如果是编程任务，可以使用 Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit 这个模型，配置到OpenCode，也是完全够用的。

一、Ollama 背后的本质：GGUF + llama.cpp + MPS#

二、苹果原生框架 MLX#

三、oMLX 安装和使用#

一、Ollama 背后的本质：GGUF + llama.cpp + MPS

二、苹果原生框架 MLX

三、oMLX 安装和使用