Qwen 3.6 35B A3B、RTX 5090 32GB、187t/s、Q5 K S、120Kコンテキストサイズ、思考モードオフ、温度0.1

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

RedditのLocalLLaMA投稿として、Qwen 3.6 35B A3BをRTX 5090 32GB環境で動かした際の推定性能（187t/s）や設定（Q5 K S、120Kコンテキスト、Thinking Mode Off、Temp 0.1）が共有されています。
35Bクラスモデルを高いコンテキスト長（120K）でローカル推論する際の現実的な速度感を示す“信号”として注目されています。
設定の具体値（量子化Q5 K S、温度、思考モードON/OFF）が併記されており、再現や比較検討の材料になります。
この種の報告は、ローカルLLM運用の最適化（速度と品質、GPUメモリ制約）を考える人にとって判断材料になり得ます。