広告

5090 と 192GB RAM 上でのローカル Llama があまりにも遅い

Reddit r/LocalLLaMA / 2026/3/30

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • 高メモリ環境でローカル Llama サーバー(MiniMax-M2.5-UD-Q3_K_XL.gguf)を動かしているユーザーが、生成が非常に遅いと報告している。初回プロンプト後でも、だいたい 1 秒あたり 5〜10 トークン程度の速度である。
  • 現在の起動構成には非常に大きなコンテキストサイズ(ctx-size 65536)、高い batch/ub 設定、そして n-gpu-layers を -1(利用可能な GPU レイヤーをすべて使う意図)に設定している。
  • ローカル推論のスループットを改善し、レイテンシを下げるための「最適なセットアップ」を求めている。
  • その後の更新で、最初の Ollama コマンドが誤っていたことが明らかになり、統合の修正として ANTHROPIC_BASE_URL をローカル Llama サーバーに向け、Claude を通常どおり起動してそのバックエンドを参照するようにしたと説明している。
  • このスレッドは暗黙的に、特にコンテキスト長、バッチング、サーバー/API 統合といった観点から、ローカル LLM 配信における実践的なパフォーマンス調整に焦点を当てている。

以下のコマンドで llama サーバーを実行しています:
nohup ./llama-server \
--model "/path/to/your/models/MiniMax-M2.5-UD-Q3_K_XL.gguf" \
--alias "minimax_m2.5" \
--threads $(nproc) \
--threads-batch $(nproc) \
--n-gpu-layers -1 \
--port 8001 \
--ctx-size 65536 \
-b 4096 -ub 4096 \
--temp 1.0 \
--top-p 0.95 \
--min-p 0.01 \
--top-k 40 \
> llama-server.log 2>&1 &
----------

そして
ollama launch claude --model frob/minimax-m2.5

----------
最初のプロンプトを出してから、最初の回答が返ってくるまで10分以上待ちました。その後のプロンプトも同様に非常に遅いままです。
1秒あたりのトークン数はだいたい 5〜10 です。

最適なセットアップについてのガイドがあればありがたいです!

UPDATE: ollama の件は私のミスで、それは私が実行しているものではありません。そこで、anthropic のベースURLを設定し、通常どおり claude を起動して、llama サーバーを指すようにしました。これは unsloth のドキュメントからのガイドです
export ANTHROPIC_BASE_URL="http://localhost:8001"

submitted by /u/RVxAgUn
[link] [comments]

広告