[ベンチマーク] llama.cpp RPCによるデュアルRTX 5090分散推論 - 2.5GbEで122B MoEを96 t/sで実行

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

このベンチマークは、llama.cpp RPCが2台のRTX 5090ワークステーション（合計64GBのVRAM）にまたがってVRAMをプールし、検証した量子化レベルでは単一の32GB GPUに収まらないモデルを実行できることを示しています。
Qwen 3.5 27BおよびQwen 2.5 32B（Q6_K）では、デュアルGPUのRPCが、シングルGPUのスループットに対してわずかなオーバーヘッドにとどまり、比較的安定したスケーリングを示しました。
Qwen 3.5 35B MoEのベンチマークでは、インターコネクト（接続）によるボトルネックが浮き彫りになり、デュアルGPUのスループットは単純なスケーリングから期待される水準を下回っています。
より大きいMoEターゲット（Qwen 3.5 122B）でも、単一GPUではメモリ制限による失敗に到達しますが、分散セットアップでは動作します（「Beast Mode ON」と報告）。これは、非常に大規模なモデルに対して実用的な実行可能性があることを示しています。
試験環境ではllama.cpp（ビルド8709 / コミット85d482e6b）を使用し、指定したパラメータでllama-benchを実行しています。また、分散の主な制約として2.5GbEのLAN性能に依存しています。

[Benchmark] Dual RTX 5090 Distributed Inference via llama.cpp RPC - 2.5GbEで96 t/s、122B MoEを実行

モデル	サイズ	シングル5090（t/s）	デュアル5090 RPC（t/s）	注記
Qwen3.5-27B (Q6_K)	20.9 GB	59.83	55.41	-7% オーバーヘッド
Qwen3.5-35B MoE (Q6_K)	26.8 GB	206.76	150.99	相互接続のボトルネック
Qwen2.5-32B (Q6_K)	25.0 GB	54.69	51.47	安定したスケーリング
Qwen2.5-72B (Q4_K_M)	40.9 GB	FAILED (OOM)	32.74	再生可能になりました！
Qwen3.5-122B MoE (IQ4_XS)	56.1 GB	FAILED (OOM)	96.29	ビーストモードON

セットアップ

最近、同一の2台のワークステーションを使って、llama.cpp RPC の分散推論機能をテストしました。この構成により、VRAM（合計64GB）をプールして、1台の32GBカードでは物理的に収まらないモデルを実行できます。

GPU： 2x NVIDIA GeForce RTX 5090（各32GB VRAM）
相互接続： 2.5GbE LAN
OS： Ubuntu 24.04
ソフトウェア： llama.cpp（Build 8709 / Commit 85d482e6b）
方法： llama-bench with ngl 99, fa 1, b 512, p 2048, n 256
VRAMの壁を突破：最も重要な結果は、Qwen 2.5 72B と Qwen 3.5 122B を実行できることです。これらのモデルは、この量子化レベルでは単一の32GBカードにはそもそもロードできません。RPCは実質的に2台のマシンを 64GBの統合AIワークステーション に変えます。
MoEの性能が王様：Qwen 3.5 122B MoE が主役で、96.29 tokens/sec を達成しました。分散セットアップではネットワーク遅延があるにもかかわらず、MoEの疎なアクティブ化があるため、リアルタイム用途でも非常に現実的です。
2.5GbEのボトルネック：35B MoE のような小型で高速なモデルでは、RPCに移行すると 27%の性能低下（206 -> 150 t/s）が見られます。ここでは2.5GbEリンクがボトルネックです。一方で72B/122Bのような大きいモデルでは、計算時間が転送時間を上回るため、このトレードオフはかなり価値があります。
プロンプト処理（PP）：単一の5090では、Qwen 3.5 35B がプリフィルで 6190 t/s を記録します。RPCでは 2823 t/s まで低下します。Blackwellのプリフィル生パワーは驚異的ですが、分散モードではネットワーク帯域によって大きくスロットリングされます。

ベンチマークコマンド
./llama-bench -m [model] -ngl 99 -fa 1 -p 2048 -n 256 -b 512 --rpc 192.168.X.X:50052

結論

別々の筐体に高性能GPUを2台持っているなら、llama.cpp RPC はもはや日常的に使う用途に十分成熟しています。これにより、以前はプロ向けのH100/A100クラスタ専用だった巨大モデルを動かせる代わりに、少し速度を犠牲にすることができます。自宅で122Bモデルをほぼ100 t/sで動かすのは、未来のように感じます。

https://preview.redd.it/f86vr9rdrytg1.png?width=2692&format=png&auto=webp&s=304b19a5bc34d44790519e67b9eb378394a071ca

提出者 /u/ReasonableDuty5319
[リンク] [コメント]

Black Hat USA

AI Business

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

[ベンチマーク] llama.cpp RPCによるデュアルRTX 5090分散推論 - 2.5GbEで122B MoEを96 t/sで実行

要点

セットアップ

結論

関連記事

Black Hat USA

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

セットアップ

結論

関連記事

Black Hat USA

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険