以下のコマンドで llama サーバーを実行しています:
nohup ./llama-server \
--model "/path/to/your/models/MiniMax-M2.5-UD-Q3_K_XL.gguf" \
--alias "minimax_m2.5" \
--threads $(nproc) \
--threads-batch $(nproc) \
--n-gpu-layers -1 \
--port 8001 \
--ctx-size 65536 \
-b 4096 -ub 4096 \
--temp 1.0 \
--top-p 0.95 \
--min-p 0.01 \
--top-k 40 \
> llama-server.log 2>&1 &
----------
そして
ollama launch claude --model frob/minimax-m2.5
----------
最初のプロンプトを出してから、最初の回答が返ってくるまで10分以上待ちました。その後のプロンプトも同様に非常に遅いままです。
1秒あたりのトークン数はだいたい 5〜10 です。
最適なセットアップについてのガイドがあればありがたいです!
UPDATE: ollama の件は私のミスで、それは私が実行しているものではありません。そこで、anthropic のベースURLを設定し、通常どおり claude を起動して、llama サーバーを指すようにしました。これは unsloth のドキュメントからのガイドです
export ANTHROPIC_BASE_URL="http://localhost:8001"
[link] [comments]



