こんにちは r/LocalLLaMA!最新の llama-bench(ビルド8463)を使って、多様なローカルクラスタでいくつかの深いベンチマークを回していました。新しい RTX 5090 が、エンタープライズ級の DGX Spark (GB10)、 AMD AI395 (Strix Halo) の巨大なユニファイドメモリ、さらに AMD Radeon AI PRO R9700 のデュアル構成と比べてどうなるのかを見たかったんです。
QwenファミリーのDenseモデル(32B, 70B)とMoEモデル(35B, 122B)をテストしました。結果はこちらです:
要点:
1. RTX 5090は絶対的な怪物(収まるなら)
モデルが32GB VRAMに完全に収まるなら、5090は比類ありません。 Qwen 3.5 35B MoE では、プロンプト処理で驚異の 5,988 t/s、生成で 205 t/s を記録しました。ですが、厳格な32GB制限のため、72B(Q4_K_M)と122Bモデルのロードは完全に失敗しました。
2. VRAMの力:デュアルAMD R9700
単体のR9700は30GB VRAMですが、 デュアルR9700構成(合計60GB) にスケールすると 70Bモデル を動かせるようになりました。ROCm環境では、生成で 11.49 t/s、プロンプト処理ではほぼ 600 t/s を達成しています。
- スケーリングの癖: 1台から2台に増やすとプロンプト処理は大幅に向上しましたが、生成速度は小さめのモデルではほぼ同じでした。これは、インターコネクトのオーバーヘッドが効いていることを示唆します。
3. AMD AI395:ユニファイドメモリのダークホース
共有メモリ98GBを備えたAI395は、 Qwen 3.5 122B MoE のような巨大モデルを動かせる唯一の非エンタープライズノードでした。
- APU向けの重要なコツ: これをROCmで動かすには
-mmp 0(mmapを無効化)を渡して、モデルをRAMに強制的に載せる必要がありました。これをしないとiGPUが詰まりました。無効化すると、APUは 108W まで到達し、122B MoEで生成はほぼ 20 t/s 出ました!
4. AMDのROCm vs Vulkan
これは面白かったです:
- ROCm は、全てのAMD構成で プロンプト処理(pp2048)において一貫して優勢でした。
- 一方 Vulkan は、特にMoEモデルで テキスト生成(tg256)の方が高い速度を引き出すことが多いです(例:単体R9700で102 t/s vs 73 t/s)。
- 警告: Vulkanは極端な負荷下では安定性に欠け、重いマルチスレッディング中に
vk::DeviceLostError(コンテキスト喪失)を投げました。
データ
| 計算ノード(バックエンド) | テスト種別 | Qwen2.5 32B (Q6_K) | Qwen3.5 35B MoE (Q6_K) | Qwen2.5 70B (Q4_K_M) | Qwen3.5 122B MoE (Q6_K) |
|---|---|---|---|---|---|
| RTX 5090 (CUDA) | プロンプト (pp2048) | 2725.44 | 5988.83 | OOM (失敗) | OOM (失敗) |
| 32GB VRAM | 生成 (tg256) | 54.58 | 205.36 | OOM (失敗) | OOM (失敗) |
| DGX Spark GB10 (CUDA) | プロンプト (pp2048) | 224.41 | 604.92 | 127.03 | 207.83 |
| 124GB VRAM | 生成 (tg256) | 4.97 | 28.67 | 3.00 | 11.37 |
| AMD AI395 (ROCm) | プロンプト (pp2048) | 304.82 | 793.37 | 137.75 | 256.48 |
| 98GB Shared | 生成 (tg256) | 8.19 | 43.14 | 4.89 | 19.67 |
| AMD AI395 (Vulkan) | プロンプト (pp2048) | 255.05 | 912.56 | 103.84 | 266.85 |
| 98GB Shared | 生成 (tg256) | 8.26 | 59.48 | 4.95 | 23.01 |
| AMD R9700 1x (ROCm) | プロンプト (pp2048) | 525.86 | 1895.03 | OOM (失敗) | OOM (失敗) |
| 30GB VRAM | 生成 (tg256) | 18.91 | 73.84 | OOM (失敗) | OOM (失敗) |
| AMD R9700 1x (Vulkan) | プロンプト (pp2048) | 234.78 | 1354.84 | OOM (失敗) | OOM (失敗) |
| 30GB VRAM | 生成 (tg256) | 19.38 | 102.55 | OOM (失敗) | OOM (失敗) |
| AMD R9700 2x (ROCm) | プロンプト (pp2048) | 805.64 | 2734.66 | 597.04 | OOM (失敗) |
| 60GB VRAM Total | 生成 (tg256) | 18.51 | 70.34 | 11.49 | OOM (失敗) |
| AMD R9700 2x (Vulkan) | プロンプト (pp2048) | 229.68 | 1210.26 | 105.73 | OOM (失敗) |
| 60GB VRAM Total | 生成 (tg256) | 16.86 | 72.46 | 10.54 | OOM (失敗) |
テストパラメータ: -ngl 99 -fa 1 -p 2048 -n 256 -b 512(Flash Attention ON)
これらの数値について、みなさんのご意見をぜひ聞きたいです!AI395 APU、あるいは同様のユニファイドメモリ構成を、さらに先まで引き上げることができた人はいますか?
[link] [comments]
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)



