| クリスマスあたりにRTX 5060 Ti 16GBを買って、目標は1つだけでした。API料金を払わずに、自分のカード上で強力なモデルをローカルで動かすことです。open claw でローカルAIのテストをしていました。 私は量子化のバックグラウンドはありませんでした。llama、lmstudio、ollamaについて知ったのは、ほんの2か月前です。 欲しかったのは、いつものQ3クラスの妥協案よりも何か良いもの(ベンチマークは最初の投稿を参照)でした。何度も24GBカードを買いたいと思ったのですが、価格を見ると、すぐに思いとどまりました。 TurboQuantの論文が出て、さらにいくつかの話でKV内のメモリが節約できると知ったとき、同じような発想をKV/cacheだけでなく、重み(weights)にも応用できるのか?と思い始めました。 仕事の後に長い夜を何回も過ごして(深夜2時まで)、それが、私が
この取り組みは、より広い変換ベースの量子化の流れに触発されています。特にRaBitQ風のWalsh-Hadamard回転のアイデアや、最近のTurboQuantの結果(Tom)です。私が確かめたかったのは、その同じジオメトリがKV/cacheだけでなく重み側でも役立つのかどうかでした。 Qwen3.5-27Bにおける主な結果
これは、フルの サイズ
つまり 私にとっての実用面はシンプルです:
なので私は一般に「Q4_0より良い」と主張しているわけではありません。もっと狭い範囲で、そしておそらく有用だと言えるのは次のことです:
パープレキシティテスト中の速度記録: - 生成 tg10: 15.55 tok/s 注意点(Caveats)
リンク十分なフィードバックとテストが得られたら、量子化ステップをオープンソースにします。 更新:いくつかの人が「自分はq4_0としか比較していない」と言っていました。そこで更新です。TQ3_4S は、処理速度がより速い形で公開される予定です。
[link] [comments] |
TurboQuantはKVだけのものではない:Qwen3.5-27BをほぼQ4_0品質で(約10%小型化しつつ)16GBの5060 Tiにようやく収める
Reddit r/LocalLLaMA / 2026/4/1
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- ローカルLLM利用者が、TurboQuantに着想を得た3.5ビット重み量子化フォーマット(TQ3_1S)を導入する、llama.cppのフォークを構築したと報告。Walsh–Hadamard回転、8セントロイド量子化、デュアルのハーフブロックスケール、CUDAランタイム対応が含まれる。
- Qwen3.5-27B(wiki.test.raw)において、TQ3_1Sは~0.0139 PPL(約0.19%)の差でQ4_0に近い品質(ほぼQ4_0)を達成しており、重み量子化のジオメトリが性能を保てることを示唆している。
- 新フォーマットにより、モデルサイズは~14.4GB(Q4_0)から~12.9GB(TQ3_1S)へと約10%削減されつつ、パープレキシティは近いまま維持される。
- 実用面では、TQ3_1Sなら27Bモデルが16GBのRTX 5060 Tiに完全に収まるのに対し、Q4_0版は同一構成では収まらない。
- 著者はこれを「Q4_0より常に優れた量子化」といった主張ではなく、「より小さいサイズでほぼQ4_0品質を実現する」という、より限定的で実用的な改善として位置づけている。




