最近のTurboQuantアルゴリズム(Zandiehら、2025)の適応であり、KV‑cache量子化からモデル重みの圧縮へと拡張しています。歪みがほぼ最適なnn.Linearのドロップイン置換を提供します。
ベンチマーク(Qwen3.5‑0.8B、WikiText‑103)
| Config | Bits | PPL | Δ PPL | Compressed Size |
|---|---|---|---|---|
| ベースライン bf16 | 16 | 14.29 | – | 1,504 MB |
| 4+4 residual | 8 | 14.29 | 0.00 | 762 MB |
| 4ビット(group=full) | 4 | 16.23 | +1.94 | 361 MB |
| 4ビット(group=128) | 4 | 16.57 | +2.28 | 381 MB |
完全なドキュメント、ベンチマーク、Tritonカーネルの詳細は、GitHubリポジトリを確認してください。
編集1(4Bモデルでテスト):
編集2(4Bを4+2 residual g=128で実行。有望そうですが、altough KLD 4+4のほうがはるかに良いです):
Qwen3.5-4B
| Config | Total Bits | PPL | Δ PPL | KLD |
|---|---|---|---|---|
| ベースライン bf16 | 16 | 10.67 | — | — |
| 4+4 residual g=128 | 8 | 10.70 | +0.03 | 0.0028 |
| 4ビット g=128 | 4 | 11.28 | +0.61 | 0.0852 |
| 4+2 residual g=128 | 6 | 10.65 | −0.02 | 0.0133 |
[リンク] [コメント]



