ゲーム用のミニPC(AMD 7840HS、32 GB RAM)にeGPU(16 GB VRAMのRadeon 9060XT)を組み合わせて、ローカルLLMを動かすテストをしています。llama.cppの使い方にあまり詳しくないので、ずっと満足のいく結果が得られていなかったのですが、最近のGemma4 24B A4B IQ4 NLモデルでついに25.9 t/sに到達しました。さらにOpenCodeにも接続して、コードベースから質問してみましたが、このレベルでは使えるようです。
llama-server -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-IQ4_NL --fit on --fit-ctx 128000 --fit-target 256 -np 1 -fa on --no-mmap --mlock --threads 8 -b 512 -ub 256 -ctk q8_0 -ctv q8_0 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 --reasoning-budget -1 これは、このような使い方をした結果です。
-b と -ub をこれ以上増やすと、そもそも読み込めません。不要な引数や最適化できる引数はありますか?
ありがとうございます。
[リンク] [コメント]




