重み向けTurboQuant:ロスレス8ビット残差による、ほぼ最適な4ビットLLM量子化—3.2×メモリ削減

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この記事は「重み向けTurboQuant(TurboQuant for weights)」を説明しており、PyTorchの`nn.Linear`層のドロップイン置き換えとして、トランスフォーマの重み行列を圧縮するためにTurboQuantを適応させたものです。
  • ロスレスな8ビット残差方式を用いることで、ほぼ最適な4ビットLLM量子化精度を目標とします(「4+4残差」構成として報告されており、合計8ビットです)。
  • Qwen3.5-0.8BをWikiText-103でベンチマークした結果、4+4残差(合計8ビット)はベースラインbf16のPPLに一致(Δ PPL = 0.00)しつつ、メモリ使用量を1,504 MBから762 MBへ削減(約2×の削減)できました。
  • 単純な4ビット構成では、モデルサイズはさらに小さくなります(361〜381 MB)が、PPLの劣化が大きくなります(Δ PPLは+1.94〜+2.28)。
  • 本記事は、ドキュメント、追加ベンチマーク、Tritonカーネル実装の詳細についてのために、GitHubリポジトリを参照するよう読者に案内しています。

最近のTurboQuantアルゴリズム(Zandieh et al., 2025)の適応であり、KV‑cacheの量子化からモデル重みの圧縮へと拡張したものです。これは、歪みがほぼ最適な状態で、代替としてそのまま差し替え可能なnn.Linearを提供します。

ベンチマーク(Qwen3.5‑0.8B、WikiText‑103)

Config Bits PPL Δ PPL Compressed Size
ベースライン bf16 16 14.29 1,504 MB
4+4 residual 8 14.29 0.00 762 MB
4ビット(group=full) 4 16.23 +1.94 361 MB
4ビット(group=128) 4 16.57 +2.28 381 MB

完全なドキュメント、ベンチマーク、Tritonカーネルの詳細は、GitHubリポジトリをご覧ください。

submitted by /u/cksac
[リンク] [コメント]
広告