下書きモデルとしてGemma 3 270Bを使うと、~11%の速度向上が得られます。次を追加して試してください:
--no-mmproj -hfd unsloth/gemma-3-270m-it-GGUF:Q8_0 (3090で)次をテストしました:
./build/bin/llama-cli -hf unsloth/gemma-4-31B-it-GGUF:Q4_1 --jinja --temp 1.0 --top-p 0.95 --top-k 64 -ngl 1000 -st -f prompt.txt --no-mmproj -hfd unsloth/gemma-3-270m-it-GGUF:Q8_0 結果は:
[ Prompt: 607.3 t/s | Generation: 36.6 t/s ]
draft acceptance rate = 0.44015 ( 820 accepted / 1863 generated)
こちらの場合と比べて:
[ Prompt: 613.8 t/s | Generation: 32.9 t/s ]
[link] [comments]

