助けて！私のLLMがLLMっていない

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

MacBook Air M2で llama.cpp を動かしているRedditユーザーが、Qwen3.5 9BモデルのQ4およびQ6量子化版では、RAM使用量がほぼ同じで、生成速度も同程度だと報告しており、これは意外だと感じています。
彼らはモデルの詳細（UD-Q4_K_XL vs Q6_K）や、llama.cpp のデフォルトのサンプリングパラメータを提示し、実行間でパージする、ウィンドウを制限する、スワッピングを無効化するなど、メモリの影響を抑えようとしたことを述べています。
生成を約2.5分行った後に、Activity Monitor と llama.cpp のメモリ内訳出力を用いて、全体の「メモリ使用量」は同程度に見える一方で、内部のメモリ配分は異なることを示しています。
投稿では、この問題を初心者の混乱として位置づけ、コミュニティに対して、量子化レベルが llama.cpp を介した Apple Silicon 上での実行時メモリやスループットにどのように関係するのか、その解釈や説明を求めています。
要点は、ローカル推論環境における量子化LLMのパフォーマンス／メモリ挙動に関するトラブルシューティングの議論であり、新しいリリースやベンチマーク発表ではない、という点です。

要するに、なぜか私のMacbook air M2 16GBでは、Q4とQ6が同じくらいのRAM量を使っているように見えるんですか？それと、同じ世代速度（生成速度）にも見えます。これについては知識がほとんどない初心者で、ここにいる親切な方々が助けてくれればと思っています。

以下にいくつかの統計があります。

モデル：unsloth Qwen3.5 9B UD-Q4_K_XL (5.97GB) と unsloth Qwen3.5 9B Q6_K (7.46)

temp 0.8
top-k 40
top-p 0.95
これらは、ほかの統計も含めて、すべて llama.cpp のデフォルトです

次のモデルに切り替える前は毎回 sudo でパージし、ターミナルとアクティビティモニタ以外のすべてのウィンドウを閉じて、スワップが起きていないことも確認しました。

使用しているメモリは画像の通りです。右側がアクティビティモニタのウィンドウで、「memory used（使用メモリ）」を丸で囲みました。

追加のデータとして、Q4 と Q6 の llama_memory_breakdown_print を載せます。どちらも約2.5分実行した後のもので、生成はそれぞれ約1425トークンと1380トークンです（time*t/s、だいたいの推定）。分かりやすくするため、フォーマットを少し変えました。

Q4:

| memory breakdown [MiB] | total free self model context compute unaccounted |

| - MTL0 (Apple M2) | 12124 = 690 + (11433 = 5679 + 5178 + 575) + 0 |

| - Host | 882 = 545 + 0 + 336 |

Q6:

| memory breakdown [MiB] | total free self model context compute unaccounted |

| - MTL0 (Apple M2) | 12124 = 477 + (11645 = 7102 + 4050 + 493) + 0 |

| - Host | 1061 = 795 + 0 + 266 |

submitted by /u/Nicking0413
[link] [comments]

Black Hat USA

AI Business

Black Hat Asia

AI Business

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

日経XTECH

AIエージェントを解説：5つのタイプ、構成要素、フレームワーク、そして実世界のユースケース

Dev.to

助けて！私のLLMがLLMっていない

要点

関連記事

Black Hat USA

Black Hat Asia

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず

AIエージェントを解説：5つのタイプ、構成要素、フレームワーク、そして実世界のユースケース

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Black Hat Asia

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

新モデル「Claude Mythos」の衝撃 数千の脆弱性を発見、一般公開せず

AIエージェントを解説：5つのタイプ、構成要素、フレームワーク、そして実世界のユースケース

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新モデル「Claude Mythos」の衝撃数千の脆弱性を発見、一般公開せず