| submitted by /u/sammyranks [link] [comments] |
Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1
Reddit r/LocalLLaMA / 4/17/2026
💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research
Key Points
- RedditのLocalLLaMA投稿として、Qwen 3.6 35B A3BをRTX 5090 32GB環境で動かした推定性能(187t/s)や設定(Q5 K S、120Kコンテキスト、Thinking Mode Off、Temp 0.1)が共有されています。
- 35Bクラスモデルを高いコンテキスト長(120K)でローカル推論する際の現実的な速度感を示す“信号”として注目されています。
- 設定の具体値(量子化Q5 K S、温度、思考モードON/OFF)が併記され、再現や比較検討の材料になります。
- この種の報告は、ローカルLLM運用の最適化(速度と品質、GPUメモリ制約)を考える人にとって判断材料になり得ます。




