无限 token？试试在 MacBook 上使用 Ollama

Thu, 21 May 2026 16:00:00 +0800

近期在外部刷到一个帖子，大意是 gpt-3.5 模型套上 harness 也能干活。这一下打开了我的思路，或许我可以在本地上用 Ollama 试试效果。

前景介绍

电脑配置是 M2 max，64GB 版本。后续文中的一切效果均建立在该配置的基础上。

我们使用的技术是 Ollama，它是一个"本地模型运行器"。它帮你把开源大模型下载到你的电脑里，并运行起来，不需要任何网络请求。

直接使用 brew 安装，指令：

`1`	`brew install ollama`

安装好之后就可以安装模型了，ollama 支持的模型可以上官网上查看。上面支持大部分的开源模型，deepseek、qwen 等。

这里，我选择的模型是 gemma4。它是 google 在今年四月推出的，安装指令：

`1`	`ollama pull gemma4@latest`

执行后就等待模型的下载，模型会下载到 ~/.ollama/models 目录下。

gemma4 的不同参数模型大小如下图：

安装好之后，使用命令运行模型。如果想要看 token 的生成速度，可加上 --verbose 参数：

`1`	`ollama run gemma4@latest --verbose`

如下截图我提了一个问题，小模型的输出速度还是挺快的：

对于模型的使用感受，很大程度上是主观的。模型吐 token 的速度快不快，输出的内容与你的预期差距大不大。如果速度快、内容和预期匹配，我们往往就会觉得模型不错，很好用。