[ベンチマーク] llama.cpp RPCによるデュアルRTX 5090分散推論 - 2.5GbEで122B MoEを96 t/sで実行

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • このベンチマークは、llama.cpp RPCが2台のRTX 5090ワークステーション(合計64GBのVRAM)にまたがってVRAMをプールし、検証した量子化レベルでは単一の32GB GPUに収まらないモデルを実行できることを示しています。
  • Qwen 3.5 27BおよびQwen 2.5 32B(Q6_K)では、デュアルGPUのRPCが、シングルGPUのスループットに対してわずかなオーバーヘッドにとどまり、比較的安定したスケーリングを示しました。
  • Qwen 3.5 35B MoEのベンチマークでは、インターコネクト(接続)によるボトルネックが浮き彫りになり、デュアルGPUのスループットは単純なスケーリングから期待される水準を下回っています。
  • より大きいMoEターゲット(Qwen 3.5 122B)でも、単一GPUではメモリ制限による失敗に到達しますが、分散セットアップでは動作します(「Beast Mode ON」と報告)。これは、非常に大規模なモデルに対して実用的な実行可能性があることを示しています。
  • 試験環境ではllama.cpp(ビルド8709 / コミット85d482e6b)を使用し、指定したパラメータでllama-benchを実行しています。また、分散の主な制約として2.5GbEのLAN性能に依存しています。
[Benchmark] Dual RTX 5090 Distributed Inference via llama.cpp RPC - 2.5GbEで96 t/s、122B MoEを実行
モデル サイズ シングル5090(t/s) デュアル5090 RPC(t/s) 注記
Qwen3.5-27B (Q6_K) 20.9 GB 59.83 55.41 -7% オーバーヘッド
Qwen3.5-35B MoE (Q6_K) 26.8 GB 206.76 150.99 相互接続のボトルネック
Qwen2.5-32B (Q6_K) 25.0 GB 54.69 51.47 安定したスケーリング
Qwen2.5-72B (Q4_K_M) 40.9 GB FAILED (OOM) 32.74 再生可能になりました!
Qwen3.5-122B MoE (IQ4_XS) 56.1 GB FAILED (OOM) 96.29 ビーストモードON

セットアップ

最近、同一の2台のワークステーションを使って、llama.cpp RPC の分散推論機能をテストしました。この構成により、VRAM(合計64GB)をプールして、1台の32GBカードでは物理的に収まらないモデルを実行できます。

  • GPU: 2x NVIDIA GeForce RTX 5090(各32GB VRAM)
  • 相互接続: 2.5GbE LAN
  • OS: Ubuntu 24.04
  • ソフトウェア: llama.cpp(Build 8709 / Commit 85d482e6b
  • 方法: llama-bench with ngl 99, fa 1, b 512, p 2048, n 256
  • VRAMの壁を突破:最も重要な結果は、Qwen 2.5 72BQwen 3.5 122B を実行できることです。これらのモデルは、この量子化レベルでは単一の32GBカードにはそもそもロードできません。RPCは実質的に2台のマシンを 64GBの統合AIワークステーション に変えます。
  • MoEの性能が王様Qwen 3.5 122B MoE が主役で、96.29 tokens/sec を達成しました。分散セットアップではネットワーク遅延があるにもかかわらず、MoEの疎なアクティブ化があるため、リアルタイム用途でも非常に現実的です。
  • 2.5GbEのボトルネック:35B MoE のような小型で高速なモデルでは、RPCに移行すると 27%の性能低下(206 -> 150 t/s)が見られます。ここでは2.5GbEリンクがボトルネックです。一方で72B/122Bのような大きいモデルでは、計算時間が転送時間を上回るため、このトレードオフはかなり価値があります。
  • プロンプト処理(PP):単一の5090では、Qwen 3.5 35B がプリフィルで 6190 t/s を記録します。RPCでは 2823 t/s まで低下します。Blackwellのプリフィル生パワーは驚異的ですが、分散モードではネットワーク帯域によって大きくスロットリングされます。

ベンチマークコマンド
./llama-bench -m [model] -ngl 99 -fa 1 -p 2048 -n 256 -b 512 --rpc 192.168.X.X:50052

結論

別々の筐体に高性能GPUを2台持っているなら、llama.cpp RPC はもはや日常的に使う用途に十分成熟しています。これにより、以前はプロ向けのH100/A100クラスタ専用だった巨大モデルを動かせる代わりに、少し速度を犠牲にすることができます。自宅で122Bモデルをほぼ100 t/sで動かすのは、未来のように感じます。

https://preview.redd.it/f86vr9rdrytg1.png?width=2692&format=png&auto=webp&s=304b19a5bc34d44790519e67b9eb378394a071ca

提出者 /u/ReasonableDuty5319
[リンク] [コメント]