IQ3のクォントでQwen 3.5 27bをIQ3 quantsで使ってみたところ、かなり良い感じだと思います。通常はだいたい32kくらい(コーディングのような用途ではローカルモデルを使っていないので、だいたいこれは私にとって十分なコンテキストです)を問題なく収められて、CUDA向けにコンパイルしたik_llama.cppを使ってRTX 4080で40+t/sくらいは出せます。ターボクォントでKVキャッシュを扱う前提で、gemma 26b moeにはiq4クォントで済ませられるのではないかと考えています。
16gbだと、ちょっと「攻めすぎ」の感覚があって、iq4とq4の間での品質低下がかなりはっきり分かる気がします……が、レイヤーのオフロードを始める必要が出た瞬間から速度をかなり犠牲にすることにもなります。
[リンク] [コメント]




