TurboQuantはKVだけのものではない：Qwen3.5-27BをほぼQ4_0品質で（約10%小型化しつつ）16GBの5060 Tiにようやく収める

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

原文を読む →

共有:

要点

ローカルLLM利用者が、TurboQuantに着想を得た3.5ビット重み量子化フォーマット（TQ3_1S）を導入する、llama.cppのフォークを構築したと報告。Walsh–Hadamard回転、8セントロイド量子化、デュアルのハーフブロックスケール、CUDAランタイム対応が含まれる。
Qwen3.5-27B（wiki.test.raw）において、TQ3_1Sは~0.0139 PPL（約0.19%）の差でQ4_0に近い品質（ほぼQ4_0）を達成しており、重み量子化のジオメトリが性能を保てることを示唆している。
新フォーマットにより、モデルサイズは~14.4GB（Q4_0）から~12.9GB（TQ3_1S）へと約10%削減されつつ、パープレキシティは近いまま維持される。
実用面では、TQ3_1Sなら27Bモデルが16GBのRTX 5060 Tiに完全に収まるのに対し、Q4_0版は同一構成では収まらない。
著者はこれを「Q4_0より常に優れた量子化」といった主張ではなく、「より小さいサイズでほぼQ4_0品質を実現する」という、より限定的で実用的な改善として位置づけている。

TurboQuant isn’t just for KV: Qwen3.5-27B at near-Q4_0 quality, about 10% smaller, and finally fitting on my 16GB 5060 Ti

クリスマスあたりにRTX 5060 Ti 16GBを買って、目標は1つだけでした。API料金を払わずに、自分のカード上で強力なモデルをローカルで動かすことです。open claw でローカルAIのテストをしていました。

私は量子化のバックグラウンドはありませんでした。llama、lmstudio、ollamaについて知ったのは、ほんの2か月前です。

欲しかったのは、いつものQ3クラスの妥協案よりも何か良いもの（ベンチマークは最初の投稿を参照）でした。何度も24GBカードを買いたいと思ったのですが、価格を見ると、すぐに思いとどまりました。

TurboQuantの論文が出て、さらにいくつかの話でKV内のメモリが節約できると知ったとき、同じような発想をKV/cacheだけでなく、重み（weights）にも応用できるのか？と思い始めました。
追記（P/S）: cuda対応でKVはほぼ仕上げていたのですが、誰かに先を越されました。

仕事の後に長い夜を何回も過ごして（深夜2時まで）、それが、私がTQ3_1Sと呼ぶ3.5ビットの重み形式を持つllama.cppのフォークに繋がりました：

Walsh-Hadamard回転
8セントロイド量子化
デュアルハーフブロックスケール
llama.cppでのCUDAランタイム対応

この取り組みは、より広い変換ベースの量子化の流れに触発されています。特にRaBitQ風のWalsh-Hadamard回転のアイデアや、最近のTurboQuantの結果（Tom）です。私が確かめたかったのは、その同じジオメトリがKV/cacheだけでなく重み側でも役立つのかどうかでした。

Qwen3.5-27Bにおける主な結果

Q4_0: 7.2431 +/- 0.04822
TQ3_1S: 7.2570 +/- 0.04802

これは、フルの wiki.test.raw パス（580チャンク、c=512）において、+0.0139 PPL というわずかな差、約 0.19% です。

サイズ

Q4_0: 約14.4 GB
TQ3_1S: 約12.9 GB

つまりTQ3_1Sは、Q4_0に近い品質を保ちながら、約10%小さいです。

私にとっての実用面はシンプルです：

TQ3_1Sは私の16GB RTX 5060 Tiに完全に収まる
Q4_0は同じ構成でGPUに完全には収まらない

なので私は一般に「Q4_0より良い」と主張しているわけではありません。もっと狭い範囲で、そしておそらく有用だと言えるのは次のことです：

Q4_0に近い品質
Q4_0より実質的に小さい
16GBカードで27Bモデルを現実的に動かせるだけのサイズ

パープレキシティテスト中の速度記録：
- プロンプト処理 pp512: 130.87 tok/s

- 生成 tg10: 15.55 tok/s

注意点（Caveats）

これは27Bの“目撃（witness）”における最も強い結果であり、単純なTQ3があらゆるモデルサイズで同じようにうまくいく、という包括的な主張ではありません。
私はこの分野にかなり新しいので、多くのテストを見落としている可能性があります。テストできるカードは1枚しかないので:-)
懐疑的であるべきです。自分のモデルを公開するなんて信じられないからです。
ここでの速度の話は主に、このGPUクラスでの“デプロイ/収まり”の勝ちであり、ネイティブなTQ3カーネルがネイティブなQ4_0より常に速い、という包括的な主張ではありません。