Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

Reddit r/LocalLLaMA / 4/17/2026

💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research

Key Points

  • RedditのLocalLLaMA投稿として、Qwen 3.6 35B A3BをRTX 5090 32GB環境で動かした推定性能(187t/s)や設定(Q5 K S、120Kコンテキスト、Thinking Mode Off、Temp 0.1)が共有されています。
  • 35Bクラスモデルを高いコンテキスト長(120K)でローカル推論する際の現実的な速度感を示す“信号”として注目されています。
  • 設定の具体値(量子化Q5 K S、温度、思考モードON/OFF)が併記され、再現や比較検討の材料になります。
  • この種の報告は、ローカルLLM運用の最適化(速度と品質、GPUメモリ制約)を考える人にとって判断材料になり得ます。