RDMA Mac Studioクラスター—世代スループットを超えるパフォーマンスの疑問

Reddit r/LocalLLaMA / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep Analysis

要点

  • その投稿は、(例:Qwen3 235Bで4ノードあたり31.9 tok/sのような)報告されている世代スループット以上のパフォーマンス向上を、RDMA Mac Studioクラスターが提供できるのかを問いかけており、プロンプト/プリフィル、レイテンシ、その他のボトルネックに焦点を当てています。
  • 特に、コンテキストサイズ(32K/64K/128K)に対するプリフィル速度のスケーリング方法、また集約された帯域が有効なのか、それともRDMA通信のオーバーヘッドが利益を相殺してしまうのかを尋ねています。
  • 実運用での主要な懸念事項として、初トークンまでの時間のスケーリング、ターン間におけるノード間でのKVキャッシュ永続性、そして200B+モデルのコールドスタート時間を含む、分散配置と単一ノードでのモデルロードの違いの影響を強調しています。
  • 不均一なRAMサイズや、場合によっては異なるチップ世代を含む混在ハードウェア構成がペナルティを生み、クラスター化の価値を下げるのかどうかについての意見も求めています。
  • さらに、より長い出力(4K〜8Kトークン)における持続的な生成挙動と、クラスターが、M3 Ultra 256GBのような単一ノード構成と比べて、ユーザー体験を本質的にどれほど改善するのかも調べています。

Jeff Geerling の RDMA クラスタベンチマークでは、優れた生成スループット(Qwen3 235Bで4ノード、31.9 tok/s)が示されましたが、他の性能面については疑問があります。RDMA クラスタを構成している方:

  1. プリフィル速度 - 32K/64K/128K コンテキストでのプロンプト処理。単一ノードとクラスタ構成の比較。集計帯域は効果がありますか、それとも RDMA のオーバーヘッドがそれを食ってしまいますか?

  2. 最初のトークンまでの時間 - 出力が始まるまでのレイテンシ。ノード数に応じてどのようにスケールしますか?

  3. KV キャッシュ - キャッシュはターン間でノードをまたいで維持されますか?それとも毎回のクエリごとに再プリフィルしますか?

  4. モデルのロード - 200B+ モデルのコールドスタート時間。単一 vs 分散。

  5. 混在ハードウェア - 異なる RAM(256GB + 512GB ノード)によるペナルティはありますか?また、混在するチップ世代(M3 Ultra + 将来の M5 Ultra)ではどうですか?

  6. 持続生成 - 4K〜8K トークンの出力でもスループットは維持されますか、それとも劣化しますか?

現在 M3 Ultra 256GB を注文中で、クラスタリングが本当にアップグレードの道筋になるのか理解しようとしています。

もちろん、単一のデータポイントしか参照できないなら、6つ全部の答えを手伝ってもらう必要はありませんが、幅広く情報を集めています

submitted by /u/quietsubstrate
[link] [comments]
広告