Gemma 4 26b A3B は、正しく設定すれば驚くほど素晴らしい

Reddit r/LocalLLaMA / 2026/4/7

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、LM Studio を使って RTX 3090 上で複数のローカル LLM と量子化モデルをテストし、いくつかのモデルで無限ループのようなツール呼び出しの不具合が継続的に発生することを報告している。
  • Gemma 4 26b(A3B)は、Ollama/llama.cpp 経由で実行するとツール呼び出しに対して信頼性が高く、プロンプトキャッシュは「欠点なく」動作し、生成速度も安定して速いという。
  • Flash Attention と Q4 量子化を用いることで、3090 でコンテキスト長を最大 260k トークンまで拡張しつつ、モデル性能を維持できたと報告している。
  • 著者は、推論設定(unsloth q3k_m quant、temperature 1、top-k 40)と、関数/ツール呼び出しの結果を改善すると考える独自のシステムプロンプトを共有している。
  • 結論として、このモデルはエージェント的なコーディング/ワークフローや、検索ベースのプラグインに特に強いが、ツール呼び出しやエージェント利用には高い VRAM 要求がある点を注意している。

ここ数日、RTX 3090でLM Studioを使っていろいろなモデルや量子化(クオント)を試していたんですが、どれも毎回ツール呼び出しで必ずグリッチが起きます。止まらない無限ループです。とはいえ、モデル自体はすごく気に入りました。とにかく速いんです。1秒あたり80〜110トークンくらい出ます。高いコンテキストでも、それでも非常に高い速度を維持しています。

qwen3.5 moeモデルではツール呼び出しでとても成功していたのですが、qwen系で困っていたのは、win11とLM Studioのどこかにバグのようなものがあって、プロンプトキャッシングがうまく動かないことです。会話が30〜40kコンテキストに到達すると、プロンプトの処理があまりにも遅くなってしまって、使って作業する意欲が完全に削がれます。

Gemma 4は別物です。ollama cppでのサポートがかなり良く、キャッシングも欠陥なく動作します。flash attention + q4 quantsを使っています。これなら、RTX 3090で文字通り最大260kコンテキストまで押し上げられます! しかもモデルのパフォーマンスも同じくらい良いです。

ようやく自分に合うものを見つけました。unslothのq3k_mクオントで、temperatureは1、top k samplingは40です。さらに、私が使っているカスタムのシステムプロンプトも役に立っているのかもしれません。

これをopencodeで過去6時間テストしているのですが、もう止められません。失敗しないんです。Open Code自体の全体構造をちゃんと説明してくれましたし、リポジトリ全体で2.7GBもあるような巨大さにもかかわらず、あちこちを辿って全部読んだり、特定の仕組みがどう動くかを説明したりするのに問題がありません。最終的には自分でもopen codeの自作版を作るつもりです。

正直、claude sonnetレベルの品質に感じます。関数呼び出しは一度も失敗しません。これはエージェント的なコーディング/ツール呼び出し/open clawや検索エンジン向けで、たぶん最良のモデルかもしれません。
私はperplexityよりもこれを好みます。LM Studioでプラグインを通して検索エンジンに接続すると、perplexityやGoogleよりもはるかに良い結果が出ます。

VRAMの消費については重いです。おそらく16GBでも動くとは思いますが、ツール呼び出しやエージェントでは無理です。開始するだけでも10〜15kコンテキストは必要です。私のGPUは24GBのメモリなので、Q4_0のKVであれば、フルのコンテキストでも問題なく動かせます。

submitted by /u/cviperr33
[link] [comments]