qwen3.6 27bの新しいmtpによる推測デコードをいじってみたところ、とても良いです。ですが、エージェント的なコーディングでは、ngramからの大きな改善が見られました。というのも、(たとえば編集ツールを呼び出すような)それなりの割合の時間、モデルが単に、すでに見たコードの一部分をそのまま逐語的に繰り返しているだけだからです。ngramは、比較すると非常に高速に大量のトークンについて推測できます。
両方を同時に使って組み合わせられたら最高なのですが、コマンドライン引数に両方を追加しても、有効なのはngramだけのように見えます。
両方を同時に使えない理由はありますか? 基本的な制約でしょうか、それとも、実装上の制限で、修正がもうすぐ来そうなだけですか?
編集: さっきPRをもう一度見たら、PmNz8が私がこれを投稿する約2時間前に同じ質問をしていました。ぜひアップドートを! https://github.com/ggml-org/llama.cpp/pull/22673#issuecomment-4394544777
[リンク] [コメント]



