Mistral Medium 3.5をAMD Strix Haloで動かすと遅いという報告

Reddit r/LocalLLaMA / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • Redditユーザーによると、AMD Strix Halo上でMistral Medium 3.5を動かすと非常に遅く、処理は一晩かけて実行するのがよいとされています。
  • 48kトークンのプロンプトに加えて4kの“thinking tokens”を使ったテストでは、完了まで約2時間かかったと報告されています。
  • 共有されたllama-serverのログでは、プロンプト評価と生成のどちらも長い時間がかかっており、トークン当たりの処理速度が低い(プロンプト評価時は約10 tokens/sec、eval時は約2 tokens/sec程度)ことが示されています。
  • ユーザーは、ベンチマークに使ったllama-serverの具体的な起動コマンド(コンテキスト長やGGUFモデル設定など)も提示しています。
  • 全体として、この投稿は大量トークン予算の条件下での、当該AMD環境でのローカル実行における実用的な性能制約を浮き彫りにしています。

要するに、めちゃくちゃ遅いです。一晩かけて実行してください。

コードベースのアーキテクチャについて質問しました。

48kトークンのエンドツーエンド・プロンプト+4kの思考トークンだと、約2時間かかりました。

llama-server -hf unsloth/Mistral-Medium-3. 5-128B-GGUF:UD-Q5_K_XL --temp 0.7 --host 0.0.0.0 --port 8080 -c 80000 -fa on -ngl 999 --no-context-shift -fit off --no-mmap -np 1 --mlock --cache-reuse 256 --chat-template-kwargs '{"reasoning_effort":"high"}' --no-mmproj 5月03日 13:27:09 llama-server[6051]: プロンプト評価時間 = 4955501.32 ms / 48349 トークン( 1トークンあたり 102.49 ms、秒あたり 9.76 トークン) 5月03日 13:27:09 llama-server[6051]: 評価時間 = 2652689.61 ms / 5583 トークン( 1トークンあたり 475.14 ms、秒あたり 2.10 トークン) 
投稿者 /u/Zc5Gwu
[リンク] [コメント]