要するに、めちゃくちゃ遅いです。一晩かけて実行してください。
コードベースのアーキテクチャについて質問しました。
48kトークンのエンドツーエンド・プロンプト+4kの思考トークンだと、約2時間かかりました。
llama-server -hf unsloth/Mistral-Medium-3. 5-128B-GGUF:UD-Q5_K_XL --temp 0.7 --host 0.0.0.0 --port 8080 -c 80000 -fa on -ngl 999 --no-context-shift -fit off --no-mmap -np 1 --mlock --cache-reuse 256 --chat-template-kwargs '{"reasoning_effort":"high"}' --no-mmproj 5月03日 13:27:09 llama-server[6051]: プロンプト評価時間 = 4955501.32 ms / 48349 トークン( 1トークンあたり 102.49 ms、秒あたり 9.76 トークン) 5月03日 13:27:09 llama-server[6051]: 評価時間 = 2652689.61 ms / 5583 トークン( 1トークンあたり 475.14 ms、秒あたり 2.10 トークン) [リンク] [コメント]
