| smolcluster に grove を統合したところ、本当にいちばん綺麗にまとまったインフラの一つだと思った。俺がつないだ中でね
俺も同じ問題に直面しました。smolcluster を自分のプロジェクトで使い始めてからというもの、トレーニング用にクラスタへ追加したい各ノードごとに、SSHのセットアップ、ネットワーキング、ケーブルなどを全部やらなきゃいけないんですよね、はぁ…わかるでしょ?この痛み。 そこで、せいぜいできたのは調べて、「必要なのはノードの自動検出、つまり mDNS だ」と気づくことでした。 これは AirDrop が macOS デバイス間のシームレスな自動検出とデータ転送に使っていて、macOS 以外には Zeroconf を使います。ただ残念ながら、動く解決策は思いつけませんでした(スキルの問題ってやつですね、たぶんハハ)。 そしてそこで grove を見つけました。俺は grove を作ったわけじゃない、ただ統合しただけです。
これがセットアップの全てです。固定IPは不要、設定ファイルも不要、手動のポートフォワーディングも不要。 これは自分の 3× Mac Mini で動かしていて、すぐに Jetson ボードでもテストする予定です。 今日ぜひ smolcluster[dot]com でチェックしてみてください! PS: grove をリリースしてくれた @swar_ja に敬意を! [link] [comments] |
mDNS+ZeroConfでローカルLLMの分散学習をより簡単に:ローカル端末向け
Reddit r/LocalLLaMA / 2026/5/2
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- mDNS/ZeroConfを使ったノードの自動発見により、手作業のネットワーク設定なしでローカル端末上の分散学習を簡素化するために、smolclusterへ「grove」を統合したことが述べられています。
- groveにより、各ノードごとのSSH設定や固定IP、ネットワーク設定が不要になり、さらに損失・勾配ノルム・トークン/秒・ネットワークI/Oなどの“ランク別”指標をリアルタイムで表示するターミナルダッシュボードが提供されると強調されています。
- macOSではmDNSでノード同士が発見され、Linux/JetsonではTCPにフォールバックしつつもmDNSを活用することで、マルチプラットフォームでの運用をスムーズにする狙いがあります。
- FSDPやSyncPS、ClassicDPなどの学習手法をsmolcluster上で扱う場合でも、groveにより「2コマンド」で実行できるとし、コーディネータ側の“start”と各ワーカー側の“join”で3ノード構成が自己形成される手順が示されています。
- 3台のMac mini環境での運用テストを行っており、今後はJetsonボードでの検証も予定しているほか、smolcluster.comへの導線とgroveをリリースした貢献者への謝辞が記されています。




