Jeff Geerling の RDMA クラスタベンチマークでは、優れた生成スループット(Qwen3 235Bで4ノード、31.9 tok/s)が示されましたが、他の性能面については疑問があります。RDMA クラスタを構成している方:
プリフィル速度 - 32K/64K/128K コンテキストでのプロンプト処理。単一ノードとクラスタ構成の比較。集計帯域は効果がありますか、それとも RDMA のオーバーヘッドがそれを食ってしまいますか?
最初のトークンまでの時間 - 出力が始まるまでのレイテンシ。ノード数に応じてどのようにスケールしますか?
KV キャッシュ - キャッシュはターン間でノードをまたいで維持されますか?それとも毎回のクエリごとに再プリフィルしますか?
モデルのロード - 200B+ モデルのコールドスタート時間。単一 vs 分散。
混在ハードウェア - 異なる RAM(256GB + 512GB ノード)によるペナルティはありますか?また、混在するチップ世代(M3 Ultra + 将来の M5 Ultra)ではどうですか?
持続生成 - 4K〜8K トークンの出力でもスループットは維持されますか、それとも劣化しますか?
現在 M3 Ultra 256GB を注文中で、クラスタリングが本当にアップグレードの道筋になるのか理解しようとしています。
もちろん、単一のデータポイントしか参照できないなら、6つ全部の答えを手伝ってもらう必要はありませんが、幅広く情報を集めています
[link] [comments]
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)
