https://github.com/ggml-org/llama.cpp/pull/19493
一部のプロンプトでは速度向上が見られますが、そうでないものもあります(下書き受け入れの連続が低い場合)。
良好に動作するパラメータは、タスクの種類や繰り返しパターンに依存します。
コーディングの場合、これらのパラメータで 0%〜50% 程度の速度向上が得られました:
--spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 48 --draft-max 64 [リンク] [コメント]




