| もっとやりますが、まずはモデルを選ぶところから。USE-CASE(用途)が重要です:
さらにオンラインで増えてきたら、グラフにもっと追加します。知れば知るほど、あなたにとって正しい量子化設定(quant)を掴めるし、最初に取ったやつが正解です!! [link] [comments] |
Qwen3.6-27BのKLDs:INTとNVFPの違い
Reddit r/LocalLLaMA / 2026/4/23
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- この投稿では、Qwen3.6-27Bモデルの「KLDs」(量子化設定)を選ぶための初期ガイダンスが共有され、最適解は用途に大きく依存する点が強調されています。
- THoTDのNVFPはNVFP4(A4)ではなくNVFP4A16を使うためサイズが大きいことが示され、バッチ処理では4bitのまま維持されるNVFP4(A4)の方が良い性能になる可能性があると述べています。
- CyanではINT4からBF16-INT4への移行でサイズが大きく増えることが指摘され、混合精度による精度向上とメモリ/コンテキスト負荷増のトレードオフが論点になります。
- 著者は、今後さらに多くのバリアントがオンラインになるにつれてグラフに追記するとしており、最初に適切な量子化を選ぶよう促しています。


