ついに最良の 5070 Ti + 32GB RAM 用 GGUFモデルを見つけました

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditユーザーが、Gemma 4 26B A3B「IQ4 NL」GGUFモデル(「gemma-4-26B-A4B-it-UD-IQ4_NL.gguf」)が、ローカルの共同アシスタントとして 5070 Ti と32GB RAM環境で非常にうまく動作すると報告しています。
  • 具体的な llama.cpp の起動コマンドを提示し、Googleが推奨する設定に概ね従っており、強い応答性(〜100トークン/秒未満)と大きなコンテキスト挙動を実現したと述べています。
  • ユーザーのテストでは約6.5/10のスコアで、ローカルの guide.md を読み取り、指示に従うことに成功し、ファイル読み取りや関連タスクにも対応できました。
  • 主な弱点として挙げられているのは、パッケージ/統合コードの構造に関する難しさです。具体的には、ファイル同士を正確につなぐことや、パッケージ単位の込み入った点を扱うことです。
  • 全体として、ユーザーは「carwash test」を(少数の候補の中で)通過したと主張しており、Claude Codeと並行してVS Codeのワークフローで実用的な選択肢になるとしています。

Gemma 4 26B A3B IQ4 NL です。

私の llama.cpp のコマンドは:

llama-server.exe -m "gemma-4-26B-A4B-it-UD-IQ4_NL.gguf" -ngl 999 -fa on -c 65536 -ctk q8_0 -ctv q8_0 --batch-size 1024 --ubatch-size 512 --temp 1.0 --top-k 64 --top-p 0.95 --min-p 0.0 --repeat-penalty 1.0 --no-warmup --port 8080 --host 0.0.0.0 --chat-template-kwargs "{ "enable_thinking":true " --perf

要するに、これは Google の推奨設定そのままですが、VS Code の Claude Code における共同アシスタントとして、これが本当にうまく機能してくれました。

テストもしましたが、評価はだいたい 6.5/10 です。guide.md を読み、それに従い、ファイルも読み込み、その他にもいろいろやってくれます。主な問題は、パッケージの細かいところをうまく扱えないことです。つまり、ファイル同士を完全に正確に相互に結び付けられない、ということです。

ただ、それは課題としてはそこまでです。それ以外はすべて素晴らしいです。コンテキストサイズが大きく、1 秒あたり <100 トークンと高速だからです。私のテストでは、いくつかのモデルのうち、カーウォッシュテストを通過した数少ないモデルの 1 つです。

submitted by /u/FrozenFishEnjoyer
[link] [comments]