| INTs および NVFP4s のための KLD。 いつも通り - 使用例(Use Case)が重要です。GPU 上でのネイティブカーネルと比べた「精度 vs 処理速度」です。 もう一度、注目点:
[link] [comments] |
Qwen3.6-35B-A3B のKLD(INTs と NVFPs)
Reddit r/LocalLLaMA / 2026/4/26
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この投稿は、Qwen3.6-35B-A3B の量子化モデル同士を比較するためにKLD(クルバック・ライブラー情報量)を使う話で、用途によって「精度 vs スピード vs GPUのネイティブカーネル」の最適解が変わる点を強調しています。
- 著者は、KLD計算がvLLM上で実ログitsをGPUで扱う形になっており、RTX 6000で数分程度で済むと述べています。またKLDは「数式としては嘘をつかない」=分布の乖離をそのまま示す指標だという立場です。
- KLDと下流の評価(eval)は一致しない場合があると主張しており、KLDが悪い量子化でも用途に合ったテストではより良い結果になることがあり得るため、状況依存で量子化を選ぶべきだとしています。
- 量子化フォーマットの比較では、FP8は一般にINT8より品質が低いとされ、NVFP4は実運用では「嘘だ」と断じつつ、活性側の精度が高いNVFP4A16のような構成では精度が上がる一方でコストがあり得る点に注意しています。
- 結論として、KLDのような乖離指標と、用途別の実評価の両方で検証し、単一の指標や理論上の速度期待だけに頼らないことが重要だとしています。




