RDMA Mac Studioクラスター—世代スループットを超えるパフォーマンスの疑問

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep Analysis

共有:

要点

その投稿は、（例：Qwen3 235Bで4ノードあたり31.9 tok/sのような）報告されている世代スループット以上のパフォーマンス向上を、RDMA Mac Studioクラスターが提供できるのかを問いかけており、プロンプト／プリフィル、レイテンシ、その他のボトルネックに焦点を当てています。
特に、コンテキストサイズ（32K/64K/128K）に対するプリフィル速度のスケーリング方法、また集約された帯域が有効なのか、それともRDMA通信のオーバーヘッドが利益を相殺してしまうのかを尋ねています。
実運用での主要な懸念事項として、初トークンまでの時間のスケーリング、ターン間におけるノード間でのKVキャッシュ永続性、そして200B+モデルのコールドスタート時間を含む、分散配置と単一ノードでのモデルロードの違いの影響を強調しています。
不均一なRAMサイズや、場合によっては異なるチップ世代を含む混在ハードウェア構成がペナルティを生み、クラスター化の価値を下げるのかどうかについての意見も求めています。
さらに、より長い出力（4K〜8Kトークン）における持続的な生成挙動と、クラスターが、M3 Ultra 256GBのような単一ノード構成と比べて、ユーザー体験を本質的にどれほど改善するのかも調べています。

Jeff Geerling の RDMA クラスタベンチマークでは、優れた生成スループット（Qwen3 235Bで4ノード、31.9 tok/s）が示されましたが、他の性能面については疑問があります。RDMA クラスタを構成している方：

プリフィル速度 - 32K/64K/128K コンテキストでのプロンプト処理。単一ノードとクラスタ構成の比較。集計帯域は効果がありますか、それとも RDMA のオーバーヘッドがそれを食ってしまいますか？
最初のトークンまでの時間 - 出力が始まるまでのレイテンシ。ノード数に応じてどのようにスケールしますか？
KV キャッシュ - キャッシュはターン間でノードをまたいで維持されますか？それとも毎回のクエリごとに再プリフィルしますか？
モデルのロード - 200B+ モデルのコールドスタート時間。単一 vs 分散。
混在ハードウェア - 異なる RAM（256GB + 512GB ノード）によるペナルティはありますか？また、混在するチップ世代（M3 Ultra + 将来の M5 Ultra）ではどうですか？
持続生成 - 4K〜8K トークンの出力でもスループットは維持されますか、それとも劣化しますか？

現在 M3 Ultra 256GB を注文中で、クラスタリングが本当にアップグレードの道筋になるのか理解しようとしています。

もちろん、単一のデータポイントしか参照できないなら、6つ全部の答えを手伝ってもらう必要はありませんが、幅広く情報を集めています

Dev.to

Dev.to

Dev.to

Dev.to

Dev.to