最近のTurboQuantアルゴリズム(Zandieh et al., 2025)の適応であり、KV‑cacheの量子化からモデル重みの圧縮へと拡張したものです。これは、歪みがほぼ最適な状態で、代替としてそのまま差し替え可能なnn.Linearを提供します。
ベンチマーク(Qwen3.5‑0.8B、WikiText‑103)
| Config | Bits | PPL | Δ PPL | Compressed Size |
|---|---|---|---|---|
| ベースライン bf16 | 16 | 14.29 | – | 1,504 MB |
| 4+4 residual | 8 | 14.29 | 0.00 | 762 MB |
| 4ビット(group=full) | 4 | 16.23 | +1.94 | 361 MB |
| 4ビット(group=128) | 4 | 16.57 | +2.28 | 381 MB |
完全なドキュメント、ベンチマーク、Tritonカーネルの詳細は、GitHubリポジトリをご覧ください。
[リンク] [コメント]
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)



