広告

TurboQuantはKVだけのものではない:Qwen3.5-27BをほぼQ4_0品質で(約10%小型化しつつ)16GBの5060 Tiにようやく収める

Reddit r/LocalLLaMA / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ローカルLLM利用者が、TurboQuantに着想を得た3.5ビット重み量子化フォーマット(TQ3_1S)を導入する、llama.cppのフォークを構築したと報告。Walsh–Hadamard回転、8セントロイド量子化、デュアルのハーフブロックスケール、CUDAランタイム対応が含まれる。
  • Qwen3.5-27B(wiki.test.raw)において、TQ3_1Sは~0.0139 PPL(約0.19%)の差でQ4_0に近い品質(ほぼQ4_0)を達成しており、重み量子化のジオメトリが性能を保てることを示唆している。
  • 新フォーマットにより、モデルサイズは~14.4GB(Q4_0)から~12.9GB(TQ3_1S)へと約10%削減されつつ、パープレキシティは近いまま維持される。
  • 実用面では、TQ3_1Sなら27Bモデルが16GBのRTX 5060 Tiに完全に収まるのに対し、Q4_0版は同一構成では収まらない。
  • 著者はこれを「Q4_0より常に優れた量子化」といった主張ではなく、「より小さいサイズでほぼQ4_0品質を実現する」という、より限定的で実用的な改善として位置づけている。
TurboQuant isn’t just for KV: Qwen3.5-27B at near-Q4_0 quality, about 10% smaller, and finally fitting on my 16GB 5060 Ti

クリスマスあたりにRTX 5060 Ti 16GBを買って、目標は1つだけでした。API料金を払わずに、自分のカード上で強力なモデルをローカルで動かすことです。open claw でローカルAIのテストをしていました。

私は量子化のバックグラウンドはありませんでした。llama、lmstudio、ollamaについて知ったのは、ほんの2か月前です。

欲しかったのは、いつものQ3クラスの妥協案よりも何か良いもの(ベンチマークは最初の投稿を参照)でした。何度も24GBカードを買いたいと思ったのですが、価格を見ると、すぐに思いとどまりました。

TurboQuantの論文が出て、さらにいくつかの話でKV内のメモリが節約できると知ったとき、同じような発想をKV/cacheだけでなく、重み(weights)にも応用できるのか?と思い始めました。
追記(P/S): cuda対応でKVはほぼ仕上げていたのですが、誰かに先を越されました。

仕事の後に長い夜を何回も過ごして(深夜2時まで)、それが、私がTQ3_1Sと呼ぶ3.5ビットの重み形式を持つllama.cppのフォークに繋がりました:

  • Walsh-Hadamard回転
  • 8セントロイド量子化
  • デュアルハーフブロックスケール
  • llama.cppでのCUDAランタイム対応

この取り組みは、より広い変換ベースの量子化の流れに触発されています。特にRaBitQ風のWalsh-Hadamard回転のアイデアや、最近のTurboQuantの結果(Tom)です。私が確かめたかったのは、その同じジオメトリがKV/cacheだけでなく重み側でも役立つのかどうかでした。

Qwen3.5-27Bにおける主な結果

  • Q4_0: 7.2431 +/- 0.04822
  • TQ3_1S: 7.2570 +/- 0.04802

これは、フルの wiki.test.raw パス(580チャンク、c=512)において、+0.0139 PPL というわずかな差、約 0.19% です。

サイズ

  • Q4_0: 約14.4 GB
  • TQ3_1S: 約12.9 GB

つまりTQ3_1Sは、Q4_0に近い品質を保ちながら、約10%小さいです。

私にとっての実用面はシンプルです:

  • TQ3_1Sは私の16GB RTX 5060 Tiに完全に収まる
  • Q4_0は同じ構成でGPUに完全には収まらない

なので私は一般に「Q4_0より良い」と主張しているわけではありません。もっと狭い範囲で、そしておそらく有用だと言えるのは次のことです:

  • Q4_0に近い品質
  • Q4_0より実質的に小さい
  • 16GBカードで27Bモデルを現実的に動かせるだけのサイズ

パープレキシティテスト中の速度記録:
- プロンプト処理 pp512: 130.87 tok/s

- 生成 tg10: 15.55 tok/s

注意点(Caveats)

  • これは27Bの“目撃(witness)”における最も強い結果であり、単純なTQ3があらゆるモデルサイズで同じようにうまくいく、という包括的な主張ではありません。
  • 私はこの分野にかなり新しいので、多くのテストを見落としている可能性があります。テストできるカードは1枚しかないので:-)
  • 懐疑的であるべきです。自分のモデルを公開するなんて信じられないからです。
  • ここでの速度の話は主に、このGPUクラスでの“デプロイ/収まり”の勝ちであり、ネイティブなTQ3カーネルがネイティブなQ4_0より常に速い、という包括的な主張ではありません。

リンク

十分なフィードバックとテストが得られたら、量子化ステップをオープンソースにします。

更新:いくつかの人が「自分はq4_0としか比較していない」と言っていました。そこで更新です。TQ3_4S は、処理速度がより速い形で公開される予定です。

形式 bpw PPL (c=2048) サイズ
TQ3_4S 4.00 6.7727 12.9 GB
Q3_K_S 3.44 6.7970 11.4 GB
IQ4_XS 4.25 6.8334 13.9 GB
TQ3_1S 4.00 6.9186 12.9 GB
UD-Q2_K_XL 3.30 7.5294 11.0 GB

- u/Imaginary-Anywhere23

submitted by /u/pmttyji
[link] [comments]

広告