| 投稿者: /u/sammyranks [リンク] [コメント] |
Qwen 3.6 35B A3B、RTX 5090 32GB、187t/s、Q5 K S、120Kコンテキストサイズ、思考モードオフ、温度0.1
Reddit r/LocalLLaMA / 2026/4/17
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- RedditのLocalLLaMA投稿として、Qwen 3.6 35B A3BをRTX 5090 32GB環境で動かした際の推定性能(187t/s)や設定(Q5 K S、120Kコンテキスト、Thinking Mode Off、Temp 0.1)が共有されています。
- 35Bクラスモデルを高いコンテキスト長(120K)でローカル推論する際の現実的な速度感を示す“信号”として注目されています。
- 設定の具体値(量子化Q5 K S、温度、思考モードON/OFF)が併記されており、再現や比較検討の材料になります。
- この種の報告は、ローカルLLM運用の最適化(速度と品質、GPUメモリ制約)を考える人にとって判断材料になり得ます。




