Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

Reddit r/LocalLLaMA / 4/17/2026

💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research

共有:

Key Points

RedditのLocalLLaMA投稿として、Qwen 3.6 35B A3BをRTX 5090 32GB環境で動かした推定性能（187t/s）や設定（Q5 K S、120Kコンテキスト、Thinking Mode Off、Temp 0.1）が共有されています。
35Bクラスモデルを高いコンテキスト長（120K）でローカル推論する際の現実的な速度感を示す“信号”として注目されています。
設定の具体値（量子化Q5 K S、温度、思考モードON/OFF）が併記され、再現や比較検討の材料になります。
この種の報告は、ローカルLLM運用の最適化（速度と品質、GPUメモリ制約）を考える人にとって判断材料になり得ます。