Qwen3.6-35B-A3B のKLD(INTs と NVFPs)

Reddit r/LocalLLaMA / 2026/4/26

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この投稿は、Qwen3.6-35B-A3B の量子化モデル同士を比較するためにKLD(クルバック・ライブラー情報量)を使う話で、用途によって「精度 vs スピード vs GPUのネイティブカーネル」の最適解が変わる点を強調しています。
  • 著者は、KLD計算がvLLM上で実ログitsをGPUで扱う形になっており、RTX 6000で数分程度で済むと述べています。またKLDは「数式としては嘘をつかない」=分布の乖離をそのまま示す指標だという立場です。
  • KLDと下流の評価(eval)は一致しない場合があると主張しており、KLDが悪い量子化でも用途に合ったテストではより良い結果になることがあり得るため、状況依存で量子化を選ぶべきだとしています。
  • 量子化フォーマットの比較では、FP8は一般にINT8より品質が低いとされ、NVFP4は実運用では「嘘だ」と断じつつ、活性側の精度が高いNVFP4A16のような構成では精度が上がる一方でコストがあり得る点に注意しています。
  • 結論として、KLDのような乖離指標と、用途別の実評価の両方で検証し、単一の指標や理論上の速度期待だけに頼らないことが重要だとしています。
Qwen3.6-35B-A3B KLDs - INTs and NVFPs

https://preview.redd.it/c76w57d1yexg1.png?width=1482&format=png&auto=webp&s=1164d8bc3e2e8a4157f26dd5583238a736474932

INTs および NVFP4s のための KLD。

いつも通り - 使用例(Use Case)が重要です。GPU 上でのネイティブカーネルと比べた「精度 vs 処理速度」です。

もう一度、注目点:

  • これは VLLM で行っており、REAL なロジットを使用します。私のリポジトリ(https://github.com/phaelon74/vllm/tree/feature/score-mode-ppl-kld)では、VLLM の「ホットパス」に変更を入れています。つまり本物で、GPU上で動いており、RTX 6000s で約3〜5分です。
    • KLD は嘘をつきません。ロジットに対する単なる生の数学です
  • KLD は発散の物語を語ります。
    • 評価(Evals)も依然として重要です。使用例に特化したため。
    • ある量子化(quant)は、KLD が悪くても、より良い KLD の quant よりもテストで評価が良いことがあります。これはベンチ最大化(bench maxing)で、実際に起こります。使用例(Use-Case)に合う Quant を選んでください。
  • FP8 は INT8 より品質が劣ります。
    • これは W8A8 ではアクティベーションが 8 のため、予想されることです
    • FP8(W8A8)は 8bit のままであるべきで、つまり INT8 より速いはずです
  • NVFP4 のケーキは、いつも通り嘘です。
    • ただし FP8 と同様に、NVFP4(W4A4)は FP4 のままで、そして「INT4 よりも速いはず」です
    • NVPF4A16 はアクティベーションが 16 で、一般に NVFP4A4 より高い品質/精度になります。しかし、これは代償を伴う可能性があることを忘れないでください。
submitted by /u/Phaelon74
[link] [comments]