| 構築完了。ファブリック上に16 DGX Sparkを配置し、すべてが回線速度(ラインレート)に到達しています。 セットアップには時間がかかりましたが、正直なところ思っていたよりもスムーズでした。各Sparkは、ほぼすべてが事前にインストールされていてすぐ使える状態で、最初からNvidiaのUbuntu系のカスタムOSが出荷時状態で動作します。セットアップでは、ラックに取り付け、電源を入れ、すべてのノードで同じユーザー/パスワードを作成し、更新のためにノードごとに約20分待ち、その後、パスワードレスSSH、ジャンボフレーム、IPアドレスなどを設定しましたが、それらは時間を節約するためにスクリプト化しました。 各Sparkは、単一のQSFP56ケーブルでFS N8510スイッチに接続します。DGX Sparkは各ポートで2つのNICインターフェースをボンディングするので、1本のケーブルでデュアルレールになります。私は1レールあたり100〜111Gbpsを確認しており、合計すると公称の200Gbpsになります。 なぜH100sやGB300ではなくこれを? 統一メモリ。狙いはNvidiaのエコシステム内で統一メモリ容量を最大化することです。8ノードでGLM-5.1-NVFP4(434GB)をTP=8で提供していました。今度はDeepSeekとKimiでテストします。 長期的な計画は、プリフィル/デコードを分離することです。Sparkクラスタはプリフィル(非常に大規模な並列スループット)を担当し、M5 UltraのMac Studioが投入されたら、デコード用に2〜4台をラックに追加します。 — フルラック、上から下まで: - 1U Brush Panel - OPNSense Firewall - Mikrotik 10Gbスイッチ(インターネットのアップリンク) - Mikrotik 100Gbスイッチ(HPCからNASへ) - 1U Brush Panel - QNAP 374TB all U.2 NAS - 管理サーバー - デュアル4090ワークステーション - バックアップ用デュアル4090ワークステーション(同一仕様) - FS 200Gbps QSFP56ファブリックスイッチ(Sparkクラスタ) - 1U Brush Panel - 8x DGX Spark Shelf One - 8x DGX Spark Shelf Two - 2U Spacer Panel - SuperMicro 4x H100 NVL Station - GH200 [link] [comments] |
16xスパーク・クラスタ構築アップデート
Reddit r/LocalLLaMA / 2026/5/1
💬 オピニオン
要点
- 投稿者は、QSFP56ケーブルでファブリック(NVIDIA系の高速ネットワーク)に接続した16台のDGX Sparkがラインレートで稼働する16x DGX Sparkクラスタの構築が完了したと述べています。
- セットアップは手間がかかったものの概ねスムーズだったとしており、ラックへの実装、全ノードでの同一ユーザー/パスワード作成、各ノードで約20分のアップデート待ち、さらにパスワードレスSSHやジャンボフレーム、IP設定などのネットワーク構成をスクリプトで自動化したと説明しています。
- 各SparkはQSFP56ポートごとに2つのNICをボンディングし、投稿者は1レールあたり約100〜111Gbpsで、合計して公称の約200Gbpsになると報告しています。
- H100やGB300ではなくDGX Sparkを選んだ理由として、NVIDIAエコシステム内で「統合メモリ」容量を最大化する狙いが挙げられ、過去にはGLM-5.1-NVFP4(434GB)をTP=8で提供し、今後はDeepSeekやKimiでもテストするとしています。
- 将来的にはプリフィル/デコードの分離を計画しており、Sparkクラスタが大量並列のプリフィルを担当し、後からデコード用の追加機材(「M5 Ultra Mac Studios」入手後に2〜4台追加する想定)をラックに組み込む方針です。
- ラック全体の構成(上から下まで)として、OPNSenseのファイアウォール、インターネット向けのMikrotik 10Gbスイッチ、HPC〜NAS接続のMikrotik 100Gbスイッチ、大容量QNAP all-U.2 NAS(374TB)、管理サーバ、デュアル4090ワークステーション(バックアップ含む)、FS 200GbpsのQSFP56ファブリックスイッチ、そしてSpark棚と追加のアクセラレータ(Supermicro 4x H100 NVLとGH200)なども列挙されています。