<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>MacBook on 奥力手记</title>
    <link>https://www.orechou.com/categories/macbook/</link>
    <description>Recent content in MacBook on 奥力手记</description>
    <generator>Hugo</generator>
    <language>en-us</language>
    <lastBuildDate>Thu, 21 May 2026 16:00:00 +0800</lastBuildDate>
    <atom:link href="https://www.orechou.com/categories/macbook/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>无限 token？试试在 MacBook 上使用 Ollama</title>
      <link>https://www.orechou.com/posts/2026/08-how-to-use-ollama-in-macbook/</link>
      <pubDate>Thu, 21 May 2026 16:00:00 +0800</pubDate>
      <guid>https://www.orechou.com/posts/2026/08-how-to-use-ollama-in-macbook/</guid>
      <description>&lt;p&gt;近期在外部刷到一个帖子，大意是 gpt-3.5 模型套上 harness 也能干活。这一下打开了我的思路，或许我可以在本地上用 Ollama 试试效果。&lt;/p&gt;&#xA;&lt;h2 id=&#34;前景介绍&#34;&gt;前景介绍&lt;/h2&gt;&#xA;&lt;p&gt;电脑配置是 M2 max，64GB 版本。后续文中的一切效果均建立在该配置的基础上。&lt;/p&gt;&#xA;&lt;p&gt;我们使用的技术是 Ollama，它是一个&amp;quot;本地模型运行器&amp;quot;。它帮你把开源大模型下载到你的电脑里，并运行起来，不需要任何网络请求。&lt;/p&gt;&#xA;&lt;h2 id=&#34;ollama-的安装&#34;&gt;Ollama 的安装&lt;/h2&gt;&#xA;&lt;p&gt;直接使用 brew 安装，指令：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&#xA;&lt;table style=&#34;border-spacing:0;padding:0;margin:0;border:0;&#34;&gt;&lt;tr&gt;&lt;td style=&#34;vertical-align:top;padding:0;margin:0;border:0;&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code&gt;&lt;span style=&#34;white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f&#34;&gt;1&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td style=&#34;vertical-align:top;padding:0;margin:0;border:0;;width:100%&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;brew install ollama&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;p&gt;安装好之后就可以安装模型了，ollama 支持的模型可以上&lt;a href=&#34;https://ollama.com/library&#34;&gt;官网&lt;/a&gt;上查看。上面支持大部分的开源模型，deepseek、qwen 等。&#xA;&lt;img src=&#34;https://orechou.oss-cn-shenzhen.aliyuncs.com/images/ollama-library.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;这里，我选择的模型是 gemma4。它是 google 在今年四月推出的，安装指令：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&#xA;&lt;table style=&#34;border-spacing:0;padding:0;margin:0;border:0;&#34;&gt;&lt;tr&gt;&lt;td style=&#34;vertical-align:top;padding:0;margin:0;border:0;&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code&gt;&lt;span style=&#34;white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f&#34;&gt;1&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td style=&#34;vertical-align:top;padding:0;margin:0;border:0;;width:100%&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;ollama pull gemma4@latest&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;p&gt;执行后就等待模型的下载，模型会下载到 &lt;code&gt;~/.ollama/models&lt;/code&gt; 目录下。&lt;/p&gt;&#xA;&lt;p&gt;gemma4 的不同参数模型大小如下图：&#xA;&lt;img src=&#34;https://orechou.oss-cn-shenzhen.aliyuncs.com/images/ollama-gemma4-model.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;安装好之后，使用命令运行模型。如果想要看 token 的生成速度，可加上 &lt;code&gt;--verbose&lt;/code&gt; 参数：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;div style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&#xA;&lt;table style=&#34;border-spacing:0;padding:0;margin:0;border:0;&#34;&gt;&lt;tr&gt;&lt;td style=&#34;vertical-align:top;padding:0;margin:0;border:0;&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code&gt;&lt;span style=&#34;white-space:pre;-webkit-user-select:none;user-select:none;margin-right:0.4em;padding:0 0.4em 0 0.4em;color:#7f7f7f&#34;&gt;1&#xA;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&#xA;&lt;td style=&#34;vertical-align:top;padding:0;margin:0;border:0;;width:100%&#34;&gt;&#xA;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#282a36;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;ollama run gemma4@latest --verbose&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;&#xA;&lt;/div&gt;&#xA;&lt;/div&gt;&lt;p&gt;如下截图我提了一个问题，小模型的输出速度还是挺快的：&#xA;&lt;img src=&#34;https://orechou.oss-cn-shenzhen.aliyuncs.com/images/ollama-run-gemma4.png&#34; alt=&#34;&#34;&gt;&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;prompt eval rate: 325.14 tokens/s — 这是处理输入的速度，就是&amp;quot;读&amp;quot;的速度&lt;/li&gt;&#xA;&lt;li&gt;eval rate: 55.97 tokens/s — 这是生成回答的速度，就是&amp;quot;写&amp;quot;的速度&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;h2 id=&#34;主观测试效果&#34;&gt;主观测试效果&lt;/h2&gt;&#xA;&lt;p&gt;对于模型的使用感受，很大程度上是主观的。模型吐 token 的速度快不快，输出的内容与你的预期差距大不大。如果速度快、内容和预期匹配，我们往往就会觉得模型不错，很好用。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
