自分のテストからやや確信を持っていますが、ノンコーディングの場合、UD-Q8_K-XL バリアントの 9B は 27B Q4_K_XL & Q5_K_XL よりも優れていると感じます。私にとっては、最高レベルの量子化に到達すると良い品質の結果と高速さが際立つように感じました。それだけでなく、Qwen3-TTS を組み合わせてカスタム音声を使用することもでき(私はスカーレット・ジョハンソンの声を使っています)。最初のプロンプトが読み込まれて声が呼び出されると、非常に速いです。27と9Bで同じコンテキストサイズでテストしていました。
これは、上位の 9B 8ビット量子化の品質が、27B の 4ビットまたは 5ビットの量子化と比べて、一般用途の作業においてより良いと感じられたことにほかなりません。これを機に、私の 3090 にもう1つGPUを追加して、27B を8ビットで動かせるようにしたいと思わせます。
似たような事例を見た人はいますか。
[リンク] [コメント]