Radeon 9060 XT 16GBでgemma4 24B（a4b iq4 nl）を動かし、25.9 t/sを達成

Reddit r/LocalLLaMA / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Redditのユーザーが、ミニPC（AMD 7840HS、メモリ32GB）に外付けGPU（Radeon 9060 XT、VRAM 16GB）を組み合わせて、Gemma4 24B A4B IQ4 NLのローカルLLMを約25.9トークン/秒で動かせたと報告している。
llama.cpp/llama-serverを使い、長いコンテキスト向けの「fit」設定（fit on、fit-ctx 128000、fit-target 256）や推論パラメータを複数指定しており、この性能レベルでもOpenCode経由でコードベースに質問できるほど実用的だとしている。
-bや-ubなど一部のパラメータをさらに増やすとモデルが読み込めなくなるため、VRAM/メモリ制約が強いことが示唆されている。
設定の中に不要な引数がないか、また同じハードでより安定・効率よく動かす最適化の余地があるかをコミュニティに尋ねている。

ゲーム用のミニPC（AMD 7840HS、32 GB RAM）にeGPU（16 GB VRAMのRadeon 9060XT）を組み合わせて、ローカルLLMを動かすテストをしています。llama.cppの使い方にあまり詳しくないので、ずっと満足のいく結果が得られていなかったのですが、最近のGemma4 24B A4B IQ4 NLモデルでついに25.9 t/sに到達しました。さらにOpenCodeにも接続して、コードベースから質問してみましたが、このレベルでは使えるようです。

llama-server -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-IQ4_NL --fit on --fit-ctx 128000 --fit-target 256 -np 1 -fa on --no-mmap --mlock --threads 8 -b 512 -ub 256 -ctk q8_0 -ctv q8_0 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 0.0 --repeat-penalty 1.0 --reasoning-budget -1

これは、このような使い方をした結果です。

-b と -ub をこれ以上増やすと、そもそも読み込めません。不要な引数や最適化できる引数はありますか？

ありがとうございます。

投稿者 /u/CrowKing63
[リンク] [コメント]