Mistral Medium 3.5をAMD Strix Haloで動かすと遅いという報告

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

Redditユーザーによると、AMD Strix Halo上でMistral Medium 3.5を動かすと非常に遅く、処理は一晩かけて実行するのがよいとされています。
48kトークンのプロンプトに加えて4kの“thinking tokens”を使ったテストでは、完了まで約2時間かかったと報告されています。
共有されたllama-serverのログでは、プロンプト評価と生成のどちらも長い時間がかかっており、トークン当たりの処理速度が低い（プロンプト評価時は約10 tokens/sec、eval時は約2 tokens/sec程度）ことが示されています。
ユーザーは、ベンチマークに使ったllama-serverの具体的な起動コマンド（コンテキスト長やGGUFモデル設定など）も提示しています。
全体として、この投稿は大量トークン予算の条件下での、当該AMD環境でのローカル実行における実用的な性能制約を浮き彫りにしています。

要するに、めちゃくちゃ遅いです。一晩かけて実行してください。

コードベースのアーキテクチャについて質問しました。

48kトークンのエンドツーエンド・プロンプト＋4kの思考トークンだと、約2時間かかりました。

llama-server -hf unsloth/Mistral-Medium-3. 5-128B-GGUF:UD-Q5_K_XL --temp 0.7 --host 0.0.0.0 --port 8080 -c 80000 -fa on -ngl 999 --no-context-shift -fit off --no-mmap -np 1 --mlock --cache-reuse 256 --chat-template-kwargs '{"reasoning_effort":"high"}' --no-mmproj 5月03日 13:27:09 llama-server[6051]: プロンプト評価時間 = 4955501.32 ms / 48349 トークン（ 1トークンあたり 102.49 ms、秒あたり 9.76 トークン） 5月03日 13:27:09 llama-server[6051]: 評価時間 = 2652689.61 ms / 5583 トークン（ 1トークンあたり 475.14 ms、秒あたり 2.10 トークン）

投稿者 /u/Zc5Gwu
[リンク] [コメント]

Black Hat USA

AI Business

工場に訪れる自動化の地殻変動、米中と違う3つの勝ち筋

日経XTECH

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

データセンター、新技術が育つ場へ日本の部材産業にチャンス

日経XTECH

Pythonを325行で作る毎日のAIニュースブリーフの作り方

Dev.to

Mistral Medium 3.5をAMD Strix Haloで動かすと遅いという報告

要点

関連記事

Black Hat USA

工場に訪れる自動化の地殻変動、米中と違う3つの勝ち筋

光電融合、新プレーヤー・新技術が続々データセンター省電力化

データセンター、新技術が育つ場へ日本の部材産業にチャンス

Pythonを325行で作る毎日のAIニュースブリーフの作り方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

工場に訪れる自動化の地殻変動、米中と違う3つの勝ち筋

光電融合、新プレーヤー・新技術が続々 データセンター省電力化

データセンター、新技術が育つ場へ 日本の部材産業にチャンス

Pythonを325行で作る毎日のAIニュースブリーフの作り方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

光電融合、新プレーヤー・新技術が続々データセンター省電力化

データセンター、新技術が育つ場へ日本の部材産業にチャンス