Qwen3.6-27BのKLDs：INTとNVFPの違い

Reddit r/LocalLLaMA / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

この投稿では、Qwen3.6-27Bモデルの「KLDs」（量子化設定）を選ぶための初期ガイダンスが共有され、最適解は用途に大きく依存する点が強調されています。
THoTDのNVFPはNVFP4(A4)ではなくNVFP4A16を使うためサイズが大きいことが示され、バッチ処理では4bitのまま維持されるNVFP4(A4)の方が良い性能になる可能性があると述べています。
CyanではINT4からBF16-INT4への移行でサイズが大きく増えることが指摘され、混合精度による精度向上とメモリ／コンテキスト負荷増のトレードオフが論点になります。
著者は、今後さらに多くのバリアントがオンラインになるにつれてグラフに追記するとしており、最初に適切な量子化を選ぶよう促しています。

もっとやりますが、まずはモデルを選ぶところから。USE-CASE（用途）が重要です：

他のものと比べてTHoTDのNVFPが大きいことに注目してください。これはTHoTDがNVFP4A16で、NVFP4(A4)ではないためです。
- NVFP4(A4)は最初から最後まで4bitのままであるべきなので、バッチ処理をしている場合は、バッチが発生することでNVFP4(A4)の方がより良いパフォーマンスになる可能性があります
INT4からBF16-INT4へのCyanのサイズがとても増えていることに注目してください。
- これも考えどころです。ミックス精度は素晴らしいですが、より多くのスペースを使います。精度0.02を失ってまで、コンテキストを6GB失う価値はありますか？判断はお任せします。

さらにオンラインで増えてきたら、グラフにもっと追加します。知れば知るほど、あなたにとって正しい量子化設定（quant）を掴めるし、最初に取ったやつが正解です！！