16 GB VRAM users, what model do we like best now?

Reddit r/LocalLLaMA / 4/10/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

Key Points

  • Reddit投稿者が、16GB VRAM環境でのローカルLLM運用としてQwen 3.5 27BをIQ3量子化(iq3)で使うと好感触だと述べています。
  • RTX 4080上でik_llama.cpp(CUDAビルド)を用い、約32kコンテキストを問題なく扱えつつ40t/s超の速度が出ると報告されています。
  • Gemma 26BのMoEモデルはIQ4や量子化をどこまで下げるかが課題で、turboquantでKVキャッシュを工夫する案が示されています。
  • 投稿者は16GBでは速度と品質のトレードオフが厳しく、IQ4とQ4の品質低下が目立つ一方でオフロードが発生すると速度が大きく落ちる点を懸念しています。

I'm finding Qwen 3.5 27b at IQ3 quants to be quite nice, I can usually fit around 32k (this is usually enough context for me since I dont use my local models for anything like coding) without issues and get around 40+ t/s on my RTX 4080 using ik_llama.cpp compiled for CUDA. I'm wondering if we could maybe get away with iq4 quants for the gemma 26b moe using turboquant for kv cache..

Being on 16gb kind of feels like edging, cause the quality drop off between iq4 and q4 feel pretty noticable to me.. but you also give-up a ton of speed as soon as you need to start offloading layers.

submitted by /u/lemon07r
[link] [comments]