|
セットアップ最近、同一の2台のワークステーションを使って、llama.cpp RPC の分散推論機能をテストしました。この構成により、VRAM(合計64GB)をプールして、1台の32GBカードでは物理的に収まらないモデルを実行できます。
ベンチマークコマンド 結論別々の筐体に高性能GPUを2台持っているなら、llama.cpp RPC はもはや日常的に使う用途に十分成熟しています。これにより、以前はプロ向けのH100/A100クラスタ専用だった巨大モデルを動かせる代わりに、少し速度を犠牲にすることができます。自宅で122Bモデルをほぼ100 t/sで動かすのは、未来のように感じます。 [リンク] [コメント] |
[ベンチマーク] llama.cpp RPCによるデュアルRTX 5090分散推論 - 2.5GbEで122B MoEを96 t/sで実行
Reddit r/LocalLLaMA / 2026/4/8
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- このベンチマークは、llama.cpp RPCが2台のRTX 5090ワークステーション(合計64GBのVRAM)にまたがってVRAMをプールし、検証した量子化レベルでは単一の32GB GPUに収まらないモデルを実行できることを示しています。
- Qwen 3.5 27BおよびQwen 2.5 32B(Q6_K)では、デュアルGPUのRPCが、シングルGPUのスループットに対してわずかなオーバーヘッドにとどまり、比較的安定したスケーリングを示しました。
- Qwen 3.5 35B MoEのベンチマークでは、インターコネクト(接続)によるボトルネックが浮き彫りになり、デュアルGPUのスループットは単純なスケーリングから期待される水準を下回っています。
- より大きいMoEターゲット(Qwen 3.5 122B)でも、単一GPUではメモリ制限による失敗に到達しますが、分散セットアップでは動作します(「Beast Mode ON」と報告)。これは、非常に大規模なモデルに対して実用的な実行可能性があることを示しています。
- 試験環境ではllama.cpp(ビルド8709 / コミット85d482e6b)を使用し、指定したパラメータでllama-benchを実行しています。また、分散の主な制約として2.5GbEのLAN性能に依存しています。



