こちらのどなたか、llama.cpp で Gemma 4 31B IT または Qwen 3.5 27B に対して推測デコーディング(speculative decoding)を試したことはありますか?
Gemma については、同じファミリーのより小さなドラフト(下書き)モデルを使うことを考えていました。
Qwen 3.5 については、llama.cpp でうまく機能するのかどうかよく分かりません。
もし試した方がいれば、どのドラフトモデルが最も良く動いて、実際に速度向上は得られましたか?
[リンク] [コメント]




