Gemma 4 31B IT / Qwen 3.5 27B に対する llama.cpp でのスペキュレイティブ・デコーディングは検証済み?

Reddit r/LocalLLaMA / 2026/4/12

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 投稿では、スペキュレイティブ・デコーディングが llama.cpp で特に Gemma 4 31B IT および/または Qwen 3.5 27B とともに試されたかどうかを問いかけています。
  • Gemma について、提案者は同系統の小型モデルをドラフトモデルとして用い、スペキュレイティブ・トークンを生成する方法を検討しています。
  • Qwen 3.5 については、提案者は llama.cpp においてスペキュレイティブ・デコーディングがうまく機能するのか、またメリットが得られるのかどうか不確かだとしています。
  • この質問は、コミュニティの知見を求めて、どのドラフトモデルの組み合わせが最も良く動くのか、そして実際の環境で測定可能な速度向上が得られるのかを確認したいという意図です。

こちらのどなたか、llama.cpp で Gemma 4 31B IT または Qwen 3.5 27B に対して推測デコーディング(speculative decoding)を試したことはありますか?

Gemma については、同じファミリーのより小さなドラフト(下書き)モデルを使うことを考えていました。
Qwen 3.5 については、llama.cpp でうまく機能するのかどうかよく分かりません。

もし試した方がいれば、どのドラフトモデルが最も良く動いて、実際に速度向上は得られましたか?

投稿者 /u/No_Algae1753
[リンク] [コメント]