3090でのすべてのunsloth Qwen3.5-35B-A3B Q4モデルのベンチマーク

Reddit r/LocalLLaMA / 2026/3/11

📰 ニュースModels & Research

共有:

要点

本記事では、RTX 3090 GPUを用いて10Kのコンテキスト長でテストした複数のQwen3.5-35B-A3B Q4-Q3量子化言語モデルのベンチマーク結果を紹介しています。
パフォーマンス指標として、ファイルサイズ、プロンプト評価速度（トークン毎秒）、生成速度、および各モデルのパープレキシティスコアが報告されています。
最も高速なモデルであるUD-Q4_K_Mは作成者のunslothによって削除され現在は利用できませんが、UD-Q4_K_Lが代替として考えられています。
これらのベンチマークは、Q4-Q3量子化版のモデルサイズ、速度、品質のトレードオフを理解するのに役立ちます。
テストはQ3_K_Sより小さいモデルを除外し、高性能消費者向けGPUでの実用評価のためにより大きく能力の高いモデルに焦点を当てています。

また別の日、また無駄かもしれないが無駄ではないかもしれない数字の表です。

今回は、コンテキスト長10KでQwen3.5-35B-A3BのQ4-Q3範囲のベンチマークを行いました。このテストでは、サイズがQ3_K_S未満のものはすべて省略しています。

モデル	ファイルサイズ	プロンプト評価 (トークン/秒)	生成 (トークン/秒)	パープレキシティ (PPL)
Q3_K_S	15266MB	2371.78 ± 12.27	117.12 ± 0.38	6.7653 ± 0.04332
Q3_K_M	16357MB	2401.14 ± 9.51	120.23 ± 0.84	6.6829 ± 0.04268
UD-Q3_K_XL	16602MB	2394.04 ± 10.50	119.17 ± 0.17	6.6920 ± 0.04277
UD-IQ4_XS	17487MB	2348.84 ± 19.65	117.76 ± 0.90	6.6294 ± 0.04226
UD-IQ4_NL	17822MB	2355.98 ± 14.76	120.28 ± 0.58	6.6299 ± 0.04226
UD-Q4_K_M	19855MB	2354.98 ± 13.63	132.27 ± 0.59	6.6059 ± 0.04208
UD-Q4_K_L	20206MB	2364.87 ± 13.44	127.64 ± 0.48	6.5889 ± 0.04204
Q4_K_S	20674MB	2355.96 ± 14.75	121.23 ± 0.60	6.5888 ± 0.04200
Q4_K_M	22017MB	2343.71 ± 9.35	121.00 ± 0.90	6.5593 ± 0.04173
UD-Q4_K_XL	22242MB	2335.45 ± 10.18	119.38 ± 0.84	6.5523 ± 0.04169

このリストの中で最も高速なモデルUD-Q4_K_Mは現在利用できず、unslothによって削除されました。UD-Q4_K_Lがそれに多少代替できるように見えます。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/MachineLearning