| 皆さん、こんにちは。低レベルのGPU周りにはまだ慣れていません。ですが楽しみとして、Strix Haloノード(Minisforumのボックス、各ノード128GBの統合メモリ)でエキスパート並列処理を動かせるか試してみたいと思います、私がk8sクラスターの一部として実行しているものです。 正直なところ、AIを多用してきて道中で多くの愚かな質問もしましたが、進捗にはかなり満足しており、それを共有したいと思います。ここには私の2台のマシンを横断して実行しているワークロードのダッシュボードがあります: ここからはボトルネックを外科的に狙っていくつもりです。ggmlが少し制限を感じる部分には、直接ROCmカーネルを書くことを考えています。 この分野で経験豊富な方からのご指導をぜひいただきたいです。私のバックグラウンドは主にWeb開発とTypeScriptです。 ありがとうございます :) [リンク] [コメント] |
Strix Haloでエキスパート並列処理を試してみた — Qwen3.5 122B-A10Bを約9.5トークン/秒で実行
Reddit r/LocalLLaMA / 2026/3/23
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- 著者は、Kubernetesクラスタ内の Strix Halo ノードで Expert Parallelism を有効にしようとしている(それぞれ128GBの統合メモリを搭載した2台の MinisForum ボックス)。
- この構成で Qwen3.5 122B‑A10B を約9.5トークン/秒で動作させていると報告している。
- 彼らの計画は、ボトルネックを特定し、ggmlの制約と感じている点を克服するために ROCm カーネルを書くことも検討している。
- この投稿は、より経験豊富な実務者からの助言を求めており、著者のウェブ開発と TypeScript のバックグラウンドについても触れている。




