16xスパーク・クラスタ構築アップデート

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオン

要点

  • 投稿者は、QSFP56ケーブルでファブリック(NVIDIA系の高速ネットワーク)に接続した16台のDGX Sparkがラインレートで稼働する16x DGX Sparkクラスタの構築が完了したと述べています。
  • セットアップは手間がかかったものの概ねスムーズだったとしており、ラックへの実装、全ノードでの同一ユーザー/パスワード作成、各ノードで約20分のアップデート待ち、さらにパスワードレスSSHやジャンボフレーム、IP設定などのネットワーク構成をスクリプトで自動化したと説明しています。
  • 各SparkはQSFP56ポートごとに2つのNICをボンディングし、投稿者は1レールあたり約100〜111Gbpsで、合計して公称の約200Gbpsになると報告しています。
  • H100やGB300ではなくDGX Sparkを選んだ理由として、NVIDIAエコシステム内で「統合メモリ」容量を最大化する狙いが挙げられ、過去にはGLM-5.1-NVFP4(434GB)をTP=8で提供し、今後はDeepSeekやKimiでもテストするとしています。
  • 将来的にはプリフィル/デコードの分離を計画しており、Sparkクラスタが大量並列のプリフィルを担当し、後からデコード用の追加機材(「M5 Ultra Mac Studios」入手後に2〜4台追加する想定)をラックに組み込む方針です。
  • ラック全体の構成(上から下まで)として、OPNSenseのファイアウォール、インターネット向けのMikrotik 10Gbスイッチ、HPC〜NAS接続のMikrotik 100Gbスイッチ、大容量QNAP all-U.2 NAS(374TB)、管理サーバ、デュアル4090ワークステーション(バックアップ含む)、FS 200GbpsのQSFP56ファブリックスイッチ、そしてSpark棚と追加のアクセラレータ(Supermicro 4x H100 NVLとGH200)なども列挙されています。
16x Spark Cluster (Build Update)

構築完了。ファブリック上に16 DGX Sparkを配置し、すべてが回線速度(ラインレート)に到達しています。

セットアップには時間がかかりましたが、正直なところ思っていたよりもスムーズでした。各Sparkは、ほぼすべてが事前にインストールされていてすぐ使える状態で、最初からNvidiaのUbuntu系のカスタムOSが出荷時状態で動作します。セットアップでは、ラックに取り付け、電源を入れ、すべてのノードで同じユーザー/パスワードを作成し、更新のためにノードごとに約20分待ち、その後、パスワードレスSSH、ジャンボフレーム、IPアドレスなどを設定しましたが、それらは時間を節約するためにスクリプト化しました。

各Sparkは、単一のQSFP56ケーブルでFS N8510スイッチに接続します。DGX Sparkは各ポートで2つのNICインターフェースをボンディングするので、1本のケーブルでデュアルレールになります。私は1レールあたり100〜111Gbpsを確認しており、合計すると公称の200Gbpsになります。

なぜH100sやGB300ではなくこれを?

統一メモリ。狙いはNvidiaのエコシステム内で統一メモリ容量を最大化することです。8ノードでGLM-5.1-NVFP4(434GB)をTP=8で提供していました。今度はDeepSeekとKimiでテストします。

長期的な計画は、プリフィル/デコードを分離することです。Sparkクラスタはプリフィル(非常に大規模な並列スループット)を担当し、M5 UltraのMac Studioが投入されたら、デコード用に2〜4台をラックに追加します。

フルラック、上から下まで:

- 1U Brush Panel

- OPNSense Firewall

- Mikrotik 10Gbスイッチ(インターネットのアップリンク)

- Mikrotik 100Gbスイッチ(HPCからNASへ)

- 1U Brush Panel

- QNAP 374TB all U.2 NAS

- 管理サーバー

- デュアル4090ワークステーション

- バックアップ用デュアル4090ワークステーション(同一仕様)

- FS 200Gbps QSFP56ファブリックスイッチ(Sparkクラスタ)

- 1U Brush Panel

- 8x DGX Spark Shelf One

- 8x DGX Spark Shelf Two

- 2U Spacer Panel

- SuperMicro 4x H100 NVL Station

- GH200

submitted by /u/Kurcide
[link] [comments]