助けて!私のLLMがLLMっていない

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンTools & Practical UsageModels & Research

要点

  • MacBook Air M2で llama.cpp を動かしているRedditユーザーが、Qwen3.5 9BモデルのQ4およびQ6量子化版では、RAM使用量がほぼ同じで、生成速度も同程度だと報告しており、これは意外だと感じています。
  • 彼らはモデルの詳細(UD-Q4_K_XL vs Q6_K)や、llama.cpp のデフォルトのサンプリングパラメータを提示し、実行間でパージする、ウィンドウを制限する、スワッピングを無効化するなど、メモリの影響を抑えようとしたことを述べています。
  • 生成を約2.5分行った後に、Activity Monitor と llama.cpp のメモリ内訳出力を用いて、全体の「メモリ使用量」は同程度に見える一方で、内部のメモリ配分は異なることを示しています。
  • 投稿では、この問題を初心者の混乱として位置づけ、コミュニティに対して、量子化レベルが llama.cpp を介した Apple Silicon 上での実行時メモリやスループットにどのように関係するのか、その解釈や説明を求めています。
  • 要点は、ローカル推論環境における量子化LLMのパフォーマンス/メモリ挙動に関するトラブルシューティングの議論であり、新しいリリースやベンチマーク発表ではない、という点です。
Help my llm isn't llming

要するに、なぜか私のMacbook air M2 16GBでは、Q4とQ6が同じくらいのRAM量を使っているように見えるんですか? それと、同じ世代速度(生成速度)にも見えます。これについては知識がほとんどない初心者で、ここにいる親切な方々が助けてくれればと思っています。

以下にいくつかの統計があります。

モデル:unsloth Qwen3.5 9B UD-Q4_K_XL (5.97GB) と unsloth Qwen3.5 9B Q6_K (7.46)

temp 0.8
top-k 40
top-p 0.95
これらは、ほかの統計も含めて、すべて llama.cpp のデフォルトです

次のモデルに切り替える前は毎回 sudo でパージし、ターミナルとアクティビティモニタ以外のすべてのウィンドウを閉じて、スワップが起きていないことも確認しました。

使用しているメモリは画像の通りです。右側がアクティビティモニタのウィンドウで、「memory used(使用メモリ)」を丸で囲みました。

追加のデータとして、Q4 と Q6 の llama_memory_breakdown_print を載せます。どちらも約2.5分実行した後のもので、生成はそれぞれ約1425トークンと1380トークンです(time*t/s、だいたいの推定)。分かりやすくするため、フォーマットを少し変えました。

Q4:

| memory breakdown [MiB] | total free self model context compute unaccounted |

| - MTL0 (Apple M2) | 12124 = 690 + (11433 = 5679 + 5178 + 575) + 0 |

| - Host | 882 = 545 + 0 + 336 |

Q6:

| memory breakdown [MiB] | total free self model context compute unaccounted |

| - MTL0 (Apple M2) | 12124 = 477 + (11645 = 7102 + 4050 + 493) + 0 |

| - Host | 1061 = 795 + 0 + 266 |

submitted by /u/Nicking0413
[link] [comments]