Llama.cppの量子化は壊れている

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

この投稿では、llama.cppにおける量子化の品質がベンチマークだけでなく実運用の性能と安定性に大きく影響すると主張しています。
Q1〜Q4の標準的な低ビット量子化（さらに一部のQ4系）では、技巧的な質問での回答品質が一貫して悪化し、幻覚（ハルシネーション）やループなど「不具合のある」挙動が起きると述べています。
例として、GRM-2.6-PlusとQwen3.6-27BのAutoRound由来Q2_K_Mixedを比較し、サイズがほぼ同程度でもAutoRoundの方が実際の出力品質が良いとしています。
著者は低ビットのデフォルト設定としてAutoRound量子化を推奨し、Intel AutoRoundのような仕組みがより一貫した結果を生む可能性があると示唆しています。
また、QwenモデルではQ5〜Q6の量子化でも、より賢い量子化メカニズムを使わないと不十分になり得ること、そして一貫性のある他手法も求めています。

主な理由は、量子化の品質がモデルの性能と安定性に直接影響し、その結果として実際の有用性に直結するからです。GRM-2.6-Plusはベンチマークでは、そこから派生しているqwen3.6 27bモデルよりも良い結果になっていますが、実質的に同じサイズのqwen3.6 27bのautoround Q2_K_mixed量子化の方が、より良い結果を出します。

これは単なる一例で、私がテストしたほとんどの量子化は同じような問題を抱えていて、Q5未満では、異なる量子化メカニズムのものの中でもごく一部しか役に立ちません。

私は、Q1〜Q4のような低量子については、autoround量子化を標準として推したいです。Apexもかなり良い動作をしていましたが、サイズが大きいです。もしかすると、ほかにも一貫した結果が得られる代替手法を知っているかもしれません。というのも、Q4_K_Mのような標準的な量子化では十分な結果が得られず、全体としてバグのような挙動（ループ、幻覚、矛盾）が起きることが多いからです。

プロンプト：ハシブレ（ペリカン）が自転車に乗っているSVG画像を作成してください

異なる量子化結果の複数例

https://www.reddit.com/r/LocalLLaMA/comments/1szp96f/comment/oj3r4b1/

Autoround Q2_K_Mixed https://huggingface.co/sphaela/Qwen3.6-27B-AutoRound-GGUF

https://preview.redd.it/mn93lh9bz2zg1.png?width=875&format=png&auto=webp&s=fb39e93521c5f382c6438308e0f07fff21bb05d9

通常の llama.cpp Q4_K_M https://huggingface.co/morikomorizz/GRM-2.6-Plus-GGUF

https://preview.redd.it/b0gigcm7z2zg1.png?width=700&format=png&auto=webp&s=aa826be7b07e2b4ef9a89bbea3443f992d3c41c3

これはただの一例ですが、出力品質は一貫して悪くなります。難しい質問をすると、どれくらい幻覚を起こすか、ループするか等の点で顕著です。

コミュニティには、Q5〜6未満の典型的な量子化は、intel autoroundのような、もう少し知的な仕組みで調整しない限り、qwenモデルには不十分だということを理解してほしいです。

私の経験上、ループは例えば破損した量子化の直接的な症状です。エージェント的なコーディングでは、時折構文エラーも起きます。

submitted by /u/Ok-Importance-3529
[リンク] [コメント]