誰か、Python 上で vLLM か SGLang のいずれかで Qwen3.5 のための推論予算をどのように実装すべきか教えていただけますか? 何を試しても、理由もなくただ1500トークン分だけ推論してしまい、正気を失いそうです。
[リンク] [コメント]
Reddit r/LocalLLaMA / 2026/3/20
誰か、Python 上で vLLM か SGLang のいずれかで Qwen3.5 のための推論予算をどのように実装すべきか教えていただけますか? 何を試しても、理由もなくただ1500トークン分だけ推論してしまい、正気を失いそうです。