llama.cppのスペキュラティブ・チェックポイント機能がマージされた

Reddit r/LocalLLaMA / 2026/4/19

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • llama.cppのスペキュラティブ・チェックポイント機能がPRを通じてマージされ、特定のプロンプトで生成速度の向上が期待できる。
  • 効果は一様ではなく、速くなるプロンプトもあればドラフト受け入れの連続が低いケースでは改善がほとんどないこともある。
  • 有効なパラメータは、タスクの種類や入力の反復パターンに依存する。
  • コーディング用途では、n-gram系の指定とdraft-min/draft-maxの調整を行った設定により、おおよそ0%〜50%の速度向上が報告されている。

https://github.com/ggml-org/llama.cpp/pull/19493

一部のプロンプトでは速度向上が見られますが、そうでないものもあります(下書き受け入れの連続が低い場合)。
良好に動作するパラメータは、タスクの種類や繰り返しパターンに依存します。
コーディングの場合、これらのパラメータで 0%〜50% 程度の速度向上が得られました:

--spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 48 --draft-max 64 
提出者: /u/AdamDhahabi
[リンク] [コメント]