Strix Haloでエキスパート並列処理を試してみた — Qwen3.5 122B-A10Bを約9.5トークン/秒で実行

Reddit r/LocalLLaMA / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 著者は、Kubernetesクラスタ内の Strix Halo ノードで Expert Parallelism を有効にしようとしている(それぞれ128GBの統合メモリを搭載した2台の MinisForum ボックス)。
  • この構成で Qwen3.5 122B‑A10B を約9.5トークン/秒で動作させていると報告している。
  • 彼らの計画は、ボトルネックを特定し、ggmlの制約と感じている点を克服するために ROCm カーネルを書くことも検討している。
  • この投稿は、より経験豊富な実務者からの助言を求めており、著者のウェブ開発と TypeScript のバックグラウンドについても触れている。
Strix Haloでエキスパート並列処理を試してみた — Qwen3.5 122B-A10Bを9.5トークン/秒で実行中

皆さん、こんにちは。低レベルのGPU周りにはまだ慣れていません。ですが楽しみとして、Strix Haloノード(Minisforumのボックス、各ノード128GBの統合メモリ)でエキスパート並列処理を動かせるか試してみたいと思います、私がk8sクラスターの一部として実行しているものです。

正直なところ、AIを多用してきて道中で多くの愚かな質問もしましたが、進捗にはかなり満足しており、それを共有したいと思います。ここには私の2台のマシンを横断して実行しているワークロードのダッシュボードがあります:

https://preview.redd.it/969vb3yt0rqg1.png?width=2234&format=png&auto=webp&s=4c2d3c82ef1211f536735bbbc1f7a3eb2c3a79ba

ここからはボトルネックを外科的に狙っていくつもりです。ggmlが少し制限を感じる部分には、直接ROCmカーネルを書くことを考えています。

この分野で経験豊富な方からのご指導をぜひいただきたいです。私のバックグラウンドは主にWeb開発とTypeScriptです。

ありがとうございます :)

投稿者 /u/hortasha
[リンク] [コメント]