Qwen3.5での推論予算の実装

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンTools & Practical UsageModels & Research

要点

  • Pythonで vLLM または SGLang を使用して Qwen3.5 の推論予算を実装する方法を問う投稿です。
  • 著者は、推論に約1500トークンを一貫して使用しており、調整を試みても変化しないと報告しています。
  • この質問は Reddit のユーザー /u/DingyAtoll によって投稿され、LocalLLaMA の議論スレッドへのリンクが含まれています。
  • このスレッドは、推論予算を理解・制御することに焦点を当てており、それがレイテンシ、コスト、出力挙動に影響を与えます。

誰か、Python 上で vLLM か SGLang のいずれかで Qwen3.5 のための推論予算をどのように実装すべきか教えていただけますか? 何を試しても、理由もなくただ1500トークン分だけ推論してしまい、正気を失いそうです。

投稿者 /u/DingyAtoll
[リンク] [コメント]