AI Navigate

MI60 32GB VRAM GPU向けの Qwen 3.5 のベンチマークいくつか – 4B から 122B まで、さまざまな量子化レベルとさまざまなコンテキスト深度(0、5000、20000、100000)で - 古さにもかかわらず、かなり良好なパフォーマンス

Reddit r/LocalLLaMA / 2026/3/12

📰 ニュースTools & Practical UsageModels & Research

要点

  • MI60 32GB VRAMシステムで ROCm バックエンドと Flash Attention を有効化して実行したベンチマーク。ハードウェアとソフトウェアの設定を詳述。
  • 4B から 122B パラメータの Qwen 3.5 モデルを、量子化とコンテキスト深度(0、5000、20000、100000)を変化させて比較。
  • Throughput の結果 (t/s) は設定によって異なり、テストタイプと設定次第で数十から千超えの値を示す。
  • 結論として、MI60 のセットアップは年式を感じさせない堅実なパフォーマンスを、これらの AI 推論ベンチマークで発揮する。

llama.cpp ROCm ベンチマーク – MI60 32GB VRAM

ハードウェア: MI60 32GB VRAM, i9-14900K, 96GB DDR5-5600
ビルド: 43e1cbd6c (8255)
バックエンド: ROCm, Flash Attention 有効化済み

Qwen 3.5 4B Q4_K(中)

モデル サイズ パラメータ数 バックエンド ngl fa テスト t/秒
qwen35 4B Q4_K - 中 2.70 GiB 4.21 B ROCm 999 1 pp512 1232.35 ± 1.05
qwen35 4B Q4_K - 中 2.70 GiB 4.21 B ROCm 999 1 tg128 49.48 ± 0.03
qwen35 4B Q4_K - 中 2.70 GiB 4.21 B ROCm 999 1 pp512 @ d5000 1132.48 ± 2.11
qwen35 4B Q4_K - 中 2.70 GiB 4.21 B ROCm 999 1 tg128 @ d5000 48.47 ± 0.06
qwen35 4B Q4_K - 中 2.70 GiB 4.21 B ROCm 999 1 pp512 @ d20000 913.43 ± 1.37
qwen35 4B Q4_K - 中 2.70 GiB 4.21 B ROCm 999 1 tg128 @ d20000 46.67 ± 0.08
qwen35 4B Q4_K - 中 2.70 GiB 4.21 B ROCm 999 1 pp512 @ d100000 410.46 ± 1.30
qwen35 4B Q4_K - 中 2.70 GiB 4.21 B ROCm 999 1 tg128 @ d100000 39.56 ± 0.06

Qwen 3.5 4B Q8_0

モデル サイズ パラメータ数 バックエンド ngl fa テスト t/秒
qwen35 4B Q8_0 5.53 GiB 4.21 B ROCm 999 1 pp512 955.33 ± 1.66
qwen35 4B Q8_0 5.53 GiB 4.21 B ROCm 999 1 tg128 43.02 ± 0.06
qwen35 4B Q8_0 5.53 GiB 4.21 B ROCm 999 1 pp512 @ d5000 887.37 ± 2.23
qwen35 4B Q8_0 5.53 GiB 4.21 B ROCm 999 1 tg128 @ d5000 42.32 ± 0.06
qwen35 4B Q8_0 5.53 GiB 4.21 B ROCm 999 1 pp512 @ d20000 719.60 ± 1.60
qwen35 4B Q8_0 5.53 GiB 4.21 B ROCm 999 1 tg128 @ d20000 39.25 ± 0.19
qwen35 4B Q8_0 5.53 GiB 4.21 B ROCm 999 1 pp512 @ d100000 370.46 ± 1.17
qwen35 4B Q8_0 5.53 GiB 4.21 B ROCm 999 1 tg128 @ d100000 33.47 ± 0.27

Qwen 3.5 9B Q4_K(中)

モデル サイズ パラメータ数 バックエンド ngl fa テスト t/秒
qwen35 9B Q4_K - 中 5.55 GiB 8.95 B ROCm 999 1 pp512 767.11 ± 5.37
qwen35 9B Q4_K - 中 5.55 GiB 8.95 B ROCm 999 1 tg128 41.23 ± 0.39
qwen35 9B Q4_K - 中 5.55 GiB 8.95 B ROCm 999 1 pp512 @ d5000 687.61 ± 4.25
qwen35 9B Q4_K - 中 5.55 GiB 8.95 B ROCm 999 1 tg128 @ d5000 39.08 ± 0.11
qwen35 9B Q4_K - 中 5.55 GiB 8.95 B ROCm 999 1 pp512 @ d20000 569.65 ± 20.82
qwen35 9B Q4_K - 中 5.55 GiB 8.95 B ROCm 999 1 tg128 @ d20000 37.58 ± 0.21
qwen35 9B Q4_K - 中 5.55 GiB 8.95 B ROCm 999 1 pp512 @ d100000 337.25 ± 2.22
qwen35 9B Q4_K - 中 5.55 GiB 8.95 B ROCm 999 1 tg128 @ d100000 32.25 ± 0.33

Qwen 3.5 27B Q5_K(中)

モデル サイズ パラメータ数 バックエンド ngl fa テスト t/秒
qwen35 27B Q5_K - 中 18.78 GiB 26.90 B ROCm 999 1 pp512 202.53 ± 1.97
qwen35 27B Q5_K - 中 18.78 GiB 26.90 B ROCm 999 1 tg128 12.87 ± 0.27
qwen35 27B Q5_K - 中 18.78 GiB 26.90 B ROCm 999 1 pp512 @ d5000 179.92 ± 0.40
qwen35 27B Q5_K - 中 18.78 GiB 26.90 B ROCm 999 1 tg128 @ d5000 12.26 ± 0.03
qwen35 27B Q5_K - 中 18.78 GiB 26.90 B ROCm 999 1 pp512 @ d20000 158.60 ± 0.74
qwen35 27B Q5_K - 中 18.78 GiB 26.90 B ROCm 999 1 tg128 @ d20000 11.48 ± 0.06
qwen35 27B Q5_K - 中 18.78 GiB 26.90 B ROCm 999 1 pp512 @ d100000 99.18 ± 0.66
qwen35 27B Q5_K - 中 18.78 GiB 26.90 B ROCm 999 1 tg128 @ d100000 8.31 ± 0.07

Qwen 3.5 MoE 35B.A3B Q4_K(中)

モデル サイズ パラメータ数 バックエンド ngl fa テスト t/秒
qwen35moe 35B.A3B Q4_K - 中 20.70 GiB 34.66 B ROCm 999 1 pp512 851.50 ± 20.61
qwen35moe 35B.A3B Q4_K - 中 20.70 GiB 34.66 B ROCm 999 1 tg128 40.37 ± 0.13
qwen35moe 35B.A3B Q4_K - 中 20.70 GiB 34.66 B ROCm 999 1 pp512 @ d5000 793.63 ± 2.93
qwen35moe 35B.A3B Q4_K - 中 20.70 GiB 34.66 B ROCm 999 1 tg128 @ d5000 39.50 ± 0.42
qwen35moe 35B.A3B Q4_K - 中 20.70 GiB 34.66 B ROCm 999 1 pp512 @ d20000 625.67 ± 4.06
qwen35moe 35B.A3B Q4_K - 中 20.70 GiB 34.66 B ROCm 999 1 tg128 @ d20000 39.22 ± 0.02
qwen35moe 35B.A3B Q4_K - 中 20.70 GiB 34.66 B ROCm 999 1 tg128 @ d100000 304.23 ± 1.19
qwen35moe 35B.A3B Q4_K - 中 20.70 GiB 34.66 B ROCm 999 1 tg128 @ d100000 36.10 ± 0.03

Qwen 3.5 MoE 35B.A3B Q6_K

モデル サイズ パラメータ数 バックエンド ngl fa テスト t/秒
qwen35moe 35B.A3B Q6_K 26.86 GiB 34.66 B ROCm 999 1 pp512 855.91 ± 2.38
qwen35moe 35B.A3B Q6_K 26.86 GiB 34.66 B ROCm 999 1 tg128 40.10 ± 0.13
qwen35moe 35B.A3B Q6_K 26.86 GiB 34.66 B ROCm 999 1 pp512 @ d5000 747.68 ± 84.40
qwen35moe 35B.A3B Q6_K 26.86 GiB 34.66 B ROCm 999 1 tg128 @ d5000 39.56 ± 0.06
qwen35moe 35B.A3B Q6_K 26.86 GiB 34.66 B ROCm 999 1 pp512 @ d20000 617.59 ± 3.76
qwen35moe 35B.A3B Q6_K 26.86 GiB 34.66 B ROCm 999 1 tg128 @ d20000 38.76 ± 0.45
qwen35moe 35B.A3B Q6_K 26.86 GiB 34.66 B ROCm 999 1 pp512 @ d100000 294.08 ± 20.35
qwen35moe 35B.A3B Q6_K 26.86 GiB 34.66 B ROCm 999 1 tg128 @ d100000 35.54 ± 0.53

最後に - 私のVRAMに収まらない大きなモデル

このモデルは llama-bench がシャーデッドされたダウンロードと上手く連携しなかったため、少し異なる方法で実行しました(実際にはそれらを結合しましたが、llama-bench で使いたいすべてのフラグを使えなくなったので、代わりに llama-server を使用して適切なプロンプトを与えました)。

したがって、unsloth/Qwen3.5-122B-A10B-GGUF:Q4_K_M - 76.5GB のモデルの結果です

prompt eval time = 4429.15 ms / 458 tokens ( 9.67 ms per token, 103.41 tokens per second) eval time = 239847.07 ms / 3638 tokens ( 65.93 ms per token, 15.17 tokens per second) total time = 244276.22 ms / 4096 tokens slot release: id 1 | task 132 | stop processing: n_tokens = 4095, truncated = 1 srv update_slots: all slots are idle 
submitted by /u/FantasyMaster85
[リンク] [コメント]