重み向けTurboQuant：ロスレス8ビット残差による、ほぼ最適な4ビットLLM量子化—3.2×メモリ削減

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この記事は「重み向けTurboQuant（TurboQuant for weights）」を説明しており、PyTorchの`nn.Linear`層のドロップイン置き換えとして、トランスフォーマの重み行列を圧縮するためにTurboQuantを適応させたものです。
ロスレスな8ビット残差方式を用いることで、ほぼ最適な4ビットLLM量子化精度を目標とします（「4+4残差」構成として報告されており、合計8ビットです）。
Qwen3.5-0.8BをWikiText-103でベンチマークした結果、4+4残差（合計8ビット）はベースラインbf16のPPLに一致（Δ PPL = 0.00）しつつ、メモリ使用量を1,504 MBから762 MBへ削減（約2×の削減）できました。
単純な4ビット構成では、モデルサイズはさらに小さくなります（361〜381 MB）が、PPLの劣化が大きくなります（Δ PPLは+1.94〜+2.28）。
本記事は、ドキュメント、追加ベンチマーク、Tritonカーネル実装の詳細についてのために、GitHubリポジトリを参照するよう読者に案内しています。

最近のTurboQuantアルゴリズム（Zandieh et al., 2025）の適応であり、KV‑cacheの量子化からモデル重みの圧縮へと拡張したものです。これは、歪みがほぼ最適な状態で、代替としてそのまま差し替え可能なnn.Linearを提供します。

ベンチマーク（Qwen3.5‑0.8B、WikiText‑103）

Config	Bits	PPL	Δ PPL	Compressed Size
ベースライン bf16	16	14.29	–	1,504 MB
4+4 residual	8	14.29	0.00	762 MB
4ビット（group=full）	4	16.23	+1.94	361 MB
4ビット（group=128）	4	16.57	+2.28	381 MB