Qwen3.5-35B-A3B Q4-Q3 モデルベンチマーク(RTX 3090)
また別の日、また無駄かもしれないが無駄ではないかもしれない数字の表です。
今回は、コンテキスト長10KでQwen3.5-35B-A3BのQ4-Q3範囲のベンチマークを行いました。このテストでは、サイズがQ3_K_S未満のものはすべて省略しています。
結果:
| モデル | ファイルサイズ | プロンプト評価 (トークン/秒) | 生成 (トークン/秒) | パープレキシティ (PPL) |
|---|---|---|---|---|
| Q3_K_S | 15266MB | 2371.78 ± 12.27 | 117.12 ± 0.38 | 6.7653 ± 0.04332 |
| Q3_K_M | 16357MB | 2401.14 ± 9.51 | 120.23 ± 0.84 | 6.6829 ± 0.04268 |
| UD-Q3_K_XL | 16602MB | 2394.04 ± 10.50 | 119.17 ± 0.17 | 6.6920 ± 0.04277 |
| UD-IQ4_XS | 17487MB | 2348.84 ± 19.65 | 117.76 ± 0.90 | 6.6294 ± 0.04226 |
| UD-IQ4_NL | 17822MB | 2355.98 ± 14.76 | 120.28 ± 0.58 | 6.6299 ± 0.04226 |
| UD-Q4_K_M | 19855MB | 2354.98 ± 13.63 | 132.27 ± 0.59 | 6.6059 ± 0.04208 |
| UD-Q4_K_L | 20206MB | 2364.87 ± 13.44 | 127.64 ± 0.48 | 6.5889 ± 0.04204 |
| Q4_K_S | 20674MB | 2355.96 ± 14.75 | 121.23 ± 0.60 | 6.5888 ± 0.04200 |
| Q4_K_M | 22017MB | 2343.71 ± 9.35 | 121.00 ± 0.90 | 6.5593 ± 0.04173 |
| UD-Q4_K_XL | 22242MB | 2335.45 ± 10.18 | 119.38 ± 0.84 | 6.5523 ± 0.04169 |
注意事項
このリストの中で最も高速なモデルUD-Q4_K_Mは現在利用できず、unslothによって削除されました。UD-Q4_K_Lがそれに多少代替できるように見えます。
