みなさん、
GoogleがTurboQuantを発表したあの日以来、目立った品質劣化なしに行えるその極端な圧縮能力についてのニュースを追いかけてきました。このサブでは頻繁に話題に上がりますが、あらゆる議論があるにもかかわらず、正直まだ少し混乱しています。これは本当に今の私たちに適用できるのでしょうか? もし可能なら、どうやって使うのでしょうか?
最近、誰かがこのTQ量子化をモデル重みに直接適用した記事(投稿)を見かけました。Qwen3.5-27BをほぼQ4_0の品質で動かすことに成功しており、約10%小型化できたことで、ついに16GBのカード(具体的にはRTX 5060 Ti)に気持ちよく収まったとのことです。これは、消費者向けGPUを使っている私たちにとって大きいです。
ただしTurboQuantは当初、コンテキストとメモリにおける効率が強く売りとして打ち出されていたので、私の主な疑問はKV Cacheについてです。
ご存じのとおり、コンテキスト長は実際のVRAM消費の最大要因です。なので疑問は次のとおりです:
- (llama-server(llama.cpp)を使う場合)KV cacheに対して現在TQ量子化を適用できますか?
- 可能なら、どう有効化しますか? --cache-type q4_0 / --cache-type q8_0 に似たCLIフラグはすでにありますか?
- それとも、これは現時点では厳密にモデル重みに限定されていて、KV cacheに対するTQ実装のために llama.cpp チームからの公式PR/リリースをまだ待っている状態なのでしょうか?
誰かがこれをテストしたことがあるのか、あるいは現在の開発状況を知っているのか、ぜひ聞いてみたいです。ありがとうございます!
[リンク] [コメント]

