私は unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf を llama-server で(推論を有効にして)実行しています。
一部のリクエストだけ推論を無効にすることは可能ですか?可能なら、どうすればよいですか?
デフォルトでは推論をオンのままにしておきたいのですが、別の用途ではできるだけ速く応答してほしいです(例:チャットボット)
[link] [comments]
Reddit r/LocalLLaMA / 2026/4/15
私は unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf を llama-server で(推論を有効にして)実行しています。
一部のリクエストだけ推論を無効にすることは可能ですか?可能なら、どうすればよいですか?
デフォルトでは推論をオンのままにしておきたいのですが、別の用途ではできるだけ速く応答してほしいです(例:チャットボット)