Gemma4 26B A4Bは16GBのMacでも気軽に動く

Reddit r/LocalLLaMA / 2026/4/5

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この記事では、GPUアクセラレーションを使わないと16GBのMacでGemma4 26B A4Bを動かすのは一般に難しいが、CPUのみで実行しつつMoE(Mixture of Experts)と強力な量子化を用いることで現実的になると主張している。
  • M2 MacBook Proでの実測結果として、いくつかの4〜5ビットの量子化(quant)を試したところ、8〜16Kのコンテキストでだいたい6〜10トークン/秒を達成したと報告している(UnslothのIQ4_NLが最良だとしている)。
  • セットアップ手順の提案として、GPUレイヤーを0に設定すること、「keep model in memory」を無効化すること、そしてバッチサイズを控えめにすることが挙げられている。加えて、オプションとしてKVキャッシュの量子化も述べられている。
  • LM Studioのユーザー向けには、Jinjaプロンプトテンプレート(JINGAプロンプトテンプレート)を編集し、推論(reasoning)のパース開始/終了の文字列を調整することで、モデルの「thinking」機能を有効化する回避策が提示されている。
  • 総合的な結論としては、速度は速くないものの、CPUスワッピングのexpert(専門家)機構と、慎重な量子化の選び方によって、コンシューマ向けローカル環境のワークフローでモデルを実用可能にできる、という点にある。

26Bクラスの範囲のモデルは、GPUアクセラレーションを使う場合でも加速された層をすべて有線メモリ内に収める必要があるため、16GBのMacでは実行が難しいことが多いです。強力な量子化(2ビット、または非常に軽量なIQ3_XXS)なら可能ですが、それをすると品質が大幅に低下します。

ただし、代わりにCPUだけで全て実行する(これはMoEモデルであればはるかに現実的です)なら、モデルが利用可能なシステムRAM全体より大きくなってしまっても、かなり良い量子化を実行できる可能性があります。エキスパートの入れ替えによるパフォーマンス低下はありますが、想像していたよりもずっと小さいと感じました。

私はM2 Macbook Proで、8〜16Kのコンテキストウィンドウを使って6〜10 tpsを簡単に達成できました(さまざまな4ビットおよび5ビットのクアントでテスト。UnslothのIQ4_NLが最も良く動きます)。速いわけではありませんが、この種のハードウェアで動かすことに慣れている人にとっては、十分に実用的です。

GPUレイヤーの数を0に設定し、「keep model in memory(モデルをメモリに保持)」のチェックを外し、バッチサイズを64など軽めに設定するだけです。その他はすべてデフォルトのままで構いません(KVキャッシュの量子化は任意ですが、Q8_0ならパフォーマンスが少し改善するかもしれません)。

LMStudio向けの思考(thinking)修正:

また、LMstudioの利用者の方へ:現在公開されているもののどれも、モデルが対応しているのに、思考(thinking)がデフォルトで有効になっていません。有効にするには、モデル設定に入り、推論タブの下にあるJINGAプロンプトテンプレートの最上部に、次の行を追加する必要があります。

{% set enable_thinking=true %}

さらに、推論パース(reasoning parsing)文字列も変更します:

開始文字列: <|channel>thought

終了文字列: <channel|>

この修正案のクレジット:@Guilty_Rooster_6708) - この修正は私が考えたものではありません。私が参照した投稿へのリンクを貼っています。

submitted by /u/FenderMoon
[link] [comments]