[ベンチマーク] 最高の llama.cpp シュートアウト:RTX 5090 vs DGX Spark vs AMD AI395 & R9700(ROCm/Vulkan)

Reddit r/LocalLLaMA / 2026/3/25

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • ベンチマークでは、NVIDIA RTX 5090 が、モデルがその 32GB VRAM 内に完全に収まる場合のローカルLLM推論で最高クラスの性能を提供する一方で、その制約下ではより大きい 72B/122B バリアントを読み込めないことが示されている。
  • AMD Radeon AI PRO R9700 を用いると、単体の 30GB GPU からデュアルの 60GB 構成へ移行することで 70B モデルを実行でき、プロンプトスループットが大幅に向上する。ただし、世代(生成)速度は小型モデルでは、インターコネクトのオーバーヘッドによりスケールが小さくなる。
  • AMD AI395(Strix Halo)は、98GB のユニファイドメモリにより非常に大規模なモデル向けの優れた非エンタープライズ選択肢として注目されている。ROCm では、iGPU の mmap 問題を防ぐために -mmp 0 を指定する必要があり、122B MoE で約 20 t/s の生成が得られる。
  • AMD におけるバックエンド比較では、概して ROCm がプロンプト処理スループットで優位だが、MoE では Vulkan のほうがテキスト生成速度で高くなる場合がある。一方で Vulkan は、過負荷やマルチスレッド負荷下では安定性が低く(vk::DeviceLostError)、問題が起きやすい。
  • 全体結果は、llama-bench(ビルド 8463)により、RTX、エンタープライズ向け DGX Spark、AMD の ROCm/Vulkan 構成で、Qwen の dense(32B/70B)および MoE(35B/122B)テストを実施したものに基づいている。

こんにちは r/LocalLLaMA!最新の llama-bench(ビルド8463)を使って、多様なローカルクラスタでいくつかの深いベンチマークを回していました。新しい RTX 5090 が、エンタープライズ級の DGX Spark (GB10)AMD AI395 (Strix Halo) の巨大なユニファイドメモリ、さらに AMD Radeon AI PRO R9700 のデュアル構成と比べてどうなるのかを見たかったんです。

QwenファミリーのDenseモデル(32B, 70B)とMoEモデル(35B, 122B)をテストしました。結果はこちらです:

要点:

1. RTX 5090は絶対的な怪物(収まるなら)

モデルが32GB VRAMに完全に収まるなら、5090は比類ありません。 Qwen 3.5 35B MoE では、プロンプト処理で驚異の 5,988 t/s、生成で 205 t/s を記録しました。ですが、厳格な32GB制限のため、72B(Q4_K_M)と122Bモデルのロードは完全に失敗しました。

2. VRAMの力:デュアルAMD R9700

単体のR9700は30GB VRAMですが、 デュアルR9700構成(合計60GB) にスケールすると 70Bモデル を動かせるようになりました。ROCm環境では、生成で 11.49 t/s、プロンプト処理ではほぼ 600 t/s を達成しています。

  • スケーリングの癖: 1台から2台に増やすとプロンプト処理は大幅に向上しましたが、生成速度は小さめのモデルではほぼ同じでした。これは、インターコネクトのオーバーヘッドが効いていることを示唆します。

3. AMD AI395:ユニファイドメモリのダークホース

共有メモリ98GBを備えたAI395は、 Qwen 3.5 122B MoE のような巨大モデルを動かせる唯一の非エンタープライズノードでした。

  • APU向けの重要なコツ: これをROCmで動かすには -mmp 0(mmapを無効化)を渡して、モデルをRAMに強制的に載せる必要がありました。これをしないとiGPUが詰まりました。無効化すると、APUは 108W まで到達し、122B MoEで生成はほぼ 20 t/s 出ました!

4. AMDのROCm vs Vulkan

これは面白かったです:

  • ROCm は、全てのAMD構成で プロンプト処理(pp2048)において一貫して優勢でした。
  • 一方 Vulkan は、特にMoEモデルで テキスト生成(tg256)の方が高い速度を引き出すことが多いです(例:単体R9700で102 t/s vs 73 t/s)。
  • 警告: Vulkanは極端な負荷下では安定性に欠け、重いマルチスレッディング中に vk::DeviceLostError(コンテキスト喪失)を投げました。

データ

計算ノード(バックエンド) テスト種別 Qwen2.5 32B (Q6_K) Qwen3.5 35B MoE (Q6_K) Qwen2.5 70B (Q4_K_M) Qwen3.5 122B MoE (Q6_K)
RTX 5090 (CUDA) プロンプト (pp2048) 2725.44 5988.83 OOM (失敗) OOM (失敗)
32GB VRAM 生成 (tg256) 54.58 205.36 OOM (失敗) OOM (失敗)
DGX Spark GB10 (CUDA) プロンプト (pp2048) 224.41 604.92 127.03 207.83
124GB VRAM 生成 (tg256) 4.97 28.67 3.00 11.37
AMD AI395 (ROCm) プロンプト (pp2048) 304.82 793.37 137.75 256.48
98GB Shared 生成 (tg256) 8.19 43.14 4.89 19.67
AMD AI395 (Vulkan) プロンプト (pp2048) 255.05 912.56 103.84 266.85
98GB Shared 生成 (tg256) 8.26 59.48 4.95 23.01
AMD R9700 1x (ROCm) プロンプト (pp2048) 525.86 1895.03 OOM (失敗) OOM (失敗)
30GB VRAM 生成 (tg256) 18.91 73.84 OOM (失敗) OOM (失敗)
AMD R9700 1x (Vulkan) プロンプト (pp2048) 234.78 1354.84 OOM (失敗) OOM (失敗)
30GB VRAM 生成 (tg256) 19.38 102.55 OOM (失敗) OOM (失敗)
AMD R9700 2x (ROCm) プロンプト (pp2048) 805.64 2734.66 597.04 OOM (失敗)
60GB VRAM Total 生成 (tg256) 18.51 70.34 11.49 OOM (失敗)
AMD R9700 2x (Vulkan) プロンプト (pp2048) 229.68 1210.26 105.73 OOM (失敗)
60GB VRAM Total 生成 (tg256) 16.86 72.46 10.54 OOM (失敗)

テストパラメータ: -ngl 99 -fa 1 -p 2048 -n 256 -b 512(Flash Attention ON)

これらの数値について、みなさんのご意見をぜひ聞きたいです!AI395 APU、あるいは同様のユニファイドメモリ構成を、さらに先まで引き上げることができた人はいますか?

投稿者 /u/ReasonableDuty5319
[link] [comments]
広告