llama.cpp でこれらの設定を使っています: --spec-type ngram-map-k --spec-ngram-size-n 24 --draft-min 12 --draft-max 48
たとえば、プロンプトが「コードの些細な変更」のためのものであるとすると、本当の理由は何でしょうか。モデル間で何が違うのでしょう:
Gemma 4 31b: tks の生成で 2 倍になるので 100%
Qwen 3.6: 速度が 40% だけ増える
Devstrall small: 速度が 665% 増加(何?)
編集:
--repeat-penalty 1.0 と、Qwen 3.6 には --spec-type ngram-mod を追加したところ、今では些細な編集でベースの 100tks に対して 140tks だけ速度が増えています。
[リンク] [コメント]




