4Bまたは8Bパラメータで最適なコーディング用モデルはどれ?

Reddit r/LocalLLaMA / 2026/4/19

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditユーザーが、GTX 1050の4GB VRAMという制約のため、主に4Bまたは8B規模のコーディング用LLMの中で「どれが最適か」をコミュニティに質問しています。
  • 彼らは、おおむね4Bまでしか動かせず、1Bモデルも試したと述べており、量子化はQ3_XXSあたりまでが限界で、それ以上(Q2/Q1)は品質が大きく落ちる可能性があるとしています。
  • Google/Hugging Face/YouTubeでベンチマークを調べ、LM Studioでも試したものの、「数値」ではなく「実際に使った経験」に基づくおすすめを求めています。
  • さらに、Qwen 3.6 35Bのような大規模モデルは自分の環境でテストできていないことを明かし、8Bや場合によっては14Bの採用も検討しています。
  • 全体として、低VRAM GPU環境でローカルに動かすコーディング用モデルの選定を、実体験ベースで教えてほしいという相談です。

はい、タイトルがめちゃくちゃバカっぽく見えるのは分かってます。ええ、検索もしました。Google、Hugging Face、YouTubeを調べて、LM Studioでもいくつか試しましたが、低スペックのVRAM(GTX 1050 4G Vram)なので、そこに4Bか1B以上は収まりません。RAMはだいたい20Gで、ページファイルは15Gです。Qwen 3.6 35Bを試すチャンスはまだありませんでした。私の最大の量子化はQ3_XXSでしたが、これと、その後(Q2、Q1)は大量の情報が落ちるので、モデルがかなりバカになると思いました。だから8B、もしかすると14Bについて考えたのですが、検索で見たもののほとんどは数字とベンチマークだけでした。なので、ここに来て、自分で実際に試して結果を見た人に聞けるんじゃないかと思ったんです。


[リンク] [コメント]