AI Navigate

インサイト最新記事一覧 AI大全

Strix Haloでエキスパート並列処理を試してみた — Qwen3.5 122B-A10Bを約9.5トークン/秒で実行

Reddit r/LocalLLaMA / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

著者は、Kubernetesクラスタ内の Strix Halo ノードで Expert Parallelism を有効にしようとしている（それぞれ128GBの統合メモリを搭載した2台の MinisForum ボックス）。
この構成で Qwen3.5 122B‑A10B を約9.5トークン/秒で動作させていると報告している。
彼らの計画は、ボトルネックを特定し、ggmlの制約と感じている点を克服するために ROCm カーネルを書くことも検討している。
この投稿は、より経験豊富な実務者からの助言を求めており、著者のウェブ開発と TypeScript のバックグラウンドについても触れている。

Strix Haloでエキスパート並列処理を試してみた — Qwen3.5 122B-A10Bを9.5トークン/秒で実行中

皆さん、こんにちは。低レベルのGPU周りにはまだ慣れていません。ですが楽しみとして、Strix Haloノード（Minisforumのボックス、各ノード128GBの統合メモリ）でエキスパート並列処理を動かせるか試してみたいと思います、私がk8sクラスターの一部として実行しているものです。

正直なところ、AIを多用してきて道中で多くの愚かな質問もしましたが、進捗にはかなり満足しており、それを共有したいと思います。ここには私の2台のマシンを横断して実行しているワークロードのダッシュボードがあります:

https://preview.redd.it/969vb3yt0rqg1.png?width=2234&format=png&auto=webp&s=4c2d3c82ef1211f536735bbbc1f7a3eb2c3a79ba

ここからはボトルネックを外科的に狙っていくつもりです。ggmlが少し制限を感じる部分には、直接ROCmカーネルを書くことを考えています。

この分野で経験豊富な方からのご指導をぜひいただきたいです。私のバックグラウンドは主にWeb開発とTypeScriptです。

ありがとうございます :)

投稿者 /u/hortasha
[リンク] [コメント]

関連記事

Foundry Tools とは

Foundry Tools とは

Azure OpenAI Service ドキュメント

今すぐ会員登録（無料）

今すぐ会員登録（無料）

日経XTECH

開発者のためのプロンプトエンジニアリング：実際に機能するパターン

開発者のためのプロンプトエンジニアリング：実際に機能するパターン

Dev.to

ビジネスのニーズに最適なAIチャットモデル（2026年版）の選び方

ビジネスのニーズに最適なAIチャットモデル（2026年版）の選び方

Dev.to

フレームワークなしでNode.jsにマルチステップAIエージェントを構築する方法

フレームワークなしでNode.jsにマルチステップAIエージェントを構築する方法

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。