AI Navigate

3090でのすべてのunsloth Qwen3.5-35B-A3B Q4モデルのベンチマーク

Reddit r/LocalLLaMA / 2026/3/11

📰 ニュースModels & Research

要点

  • 本記事では、RTX 3090 GPUを用いて10Kのコンテキスト長でテストした複数のQwen3.5-35B-A3B Q4-Q3量子化言語モデルのベンチマーク結果を紹介しています。
  • パフォーマンス指標として、ファイルサイズ、プロンプト評価速度(トークン毎秒)、生成速度、および各モデルのパープレキシティスコアが報告されています。
  • 最も高速なモデルであるUD-Q4_K_Mは作成者のunslothによって削除され現在は利用できませんが、UD-Q4_K_Lが代替として考えられています。
  • これらのベンチマークは、Q4-Q3量子化版のモデルサイズ、速度、品質のトレードオフを理解するのに役立ちます。
  • テストはQ3_K_Sより小さいモデルを除外し、高性能消費者向けGPUでの実用評価のためにより大きく能力の高いモデルに焦点を当てています。

Qwen3.5-35B-A3B Q4-Q3 モデルベンチマーク(RTX 3090)

また別の日、また無駄かもしれないが無駄ではないかもしれない数字の表です。

今回は、コンテキスト長10KでQwen3.5-35B-A3BのQ4-Q3範囲のベンチマークを行いました。このテストでは、サイズがQ3_K_S未満のものはすべて省略しています。

結果:

モデル ファイルサイズ プロンプト評価 (トークン/秒) 生成 (トークン/秒) パープレキシティ (PPL)
Q3_K_S 15266MB 2371.78 ± 12.27 117.12 ± 0.38 6.7653 ± 0.04332
Q3_K_M 16357MB 2401.14 ± 9.51 120.23 ± 0.84 6.6829 ± 0.04268
UD-Q3_K_XL 16602MB 2394.04 ± 10.50 119.17 ± 0.17 6.6920 ± 0.04277
UD-IQ4_XS 17487MB 2348.84 ± 19.65 117.76 ± 0.90 6.6294 ± 0.04226
UD-IQ4_NL 17822MB 2355.98 ± 14.76 120.28 ± 0.58 6.6299 ± 0.04226
UD-Q4_K_M 19855MB 2354.98 ± 13.63 132.27 ± 0.59 6.6059 ± 0.04208
UD-Q4_K_L 20206MB 2364.87 ± 13.44 127.64 ± 0.48 6.5889 ± 0.04204
Q4_K_S 20674MB 2355.96 ± 14.75 121.23 ± 0.60 6.5888 ± 0.04200
Q4_K_M 22017MB 2343.71 ± 9.35 121.00 ± 0.90 6.5593 ± 0.04173
UD-Q4_K_XL 22242MB 2335.45 ± 10.18 119.38 ± 0.84 6.5523 ± 0.04169

注意事項

このリストの中で最も高速なモデルUD-Q4_K_Mは現在利用できず、unslothによって削除されました。UD-Q4_K_Lがそれに多少代替できるように見えます。