Gemma4 26b & E4B はとんでもなく優秀で、私の中では Qwen を置き換えました!

Reddit r/LocalLLaMA / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者は、Llama-swap、Open WebUI、そして Claude Code ルーターを使ったマルチモデルのローカルLLM構成を説明している。セマンティックルーティングは Qwen 3.5 4B が担当し、さらにチャット、推論、数学、コーディング用にいくつかの Qwen バリアントを併用している。
  • セマンティックルーターとしての Qwen 3.5 4B には、繰り返し問題があるとしている。具体的には、単純なプロンプトで誤ってモデルが選ばれてしまうこと、また “quick” や “ultrathink” のような上書きキーワードをときどき尊重できないことが挙げられている。
  • さらに、パフォーマンス面でのトレードオフにも触れている。Qwen 3.5 27B の推論モデルは、過剰に考え込んで大量のトークンを消費することがある一方、より大きい 122B モデルは遅くなりがちで、ツール呼び出しに失敗する場合があるという。
  • その後、Gemma 4 に切り替え、特にセマンティックルーターを Gemma 4 E4B に置き換えたところ、ルーティングの問題が消えたと述べている。ルーティングは一貫して正しく動作しているとのことだ。
  • 全体として著者は、更新した構成が ChatGPT に代わり、以前に遭遇していたツール呼び出しやルーティングの失敗を減らせたと主張している。

私のGemma 4導入前のセットアップは以下のとおりでした:

Llama-swap、open-webui、そして2台のRTX 3090 + 1台のP40でClaude code router(私の3台目の3090が死んだので、RIP)+システムメモリ128GB

以下のモデルへのセマンティックルーティング用に、必要に応じて n_cpu_moe を使いつつ Qwen 3.5 4B:

Qwen 3.5 30b A3B Q8XL - 一般的なチャット、基本的なドキュメント作業、Web検索、推論を必要としない巨大なコンテキストなど。さらに、最新のクエリに「quick」が含まれている場合は、このモデルを使うようにハードコードされていました

Qwen 3.5 27b Q8XL - A3Bの代わりに入る「高精度」モデルとして使用。特に、推論が必要なときはこちら。単純な数学と要約タスクはこのモデルで使っていました。加えて、最新のクエリに「think」が含まれている場合も、このモデルを使うようにハードコードされていました

Qwen 3 Next Coder 80B A3B Q6_K - コード生成用(出力は良さそうでしたが、既存コードのデバッグでは122bのほうが良かったように思います)

Qwen 3.5 122b UD Q4KXL(推論なし)- そのまま使うだけで、より現実世界の知識を必要とするもの

Qwen 3.5 122b Q6(推論)- 推論スキルとQwen 3.5 27bよりも一般的な知識を必要とする、最も複雑なクエリのために確保していました。また、最新のクエリに「ultrathink」が含まれている場合も、このモデルを使うようにハードコードされていました

このシステムはかなり堅実でしたが、弱点はセマンティックルーティング層でした。Qwen 3.5 4Bは、たまに仕事に対して単純に間違ったモデルを選んでしまうことがあって、それが地味に面倒でした。「こんにちは」や「あなたは誰?」みたいな簡単な挨拶ですら、Qwen 3.5 4Bが推論モデル側に割り当ててしまい、そして多くの場合122b(推論なし)に流れていました。さらに「ultrathink」や「quick」の上書きキーワードを完全に無視してしまうこともありました。セマンティックルーター(各モデルに、割り当てるべきユースケースが複数の段落で書かれていて、強みや弱みが強調されている等)でどんなプロンプトをしてもダメでした。結局、ルーターのスクリプト内でキーワードをハードコードする必要がありました。

次の弱点は、27bモデルが「思考トークン」でのトークン消費がときどき非常に大きいことでした。よりシンプルな数学問題(基本のPEMDAS)でさえも、最適なサンプリングパラメータでも過剰に考え込むことがありました。122bモデルは思考時間の面ではずっとマシでしたが、生成出力が遅かったです。Claude Code Routerでは、122bモデルがツール呼び出しに失敗することもありました。軽めのQwenモデルのほうがうまくいっていた(もしかするとunslothの量子化の問題?)

とにかく、このセットアップは私にとってChatGPTを完全に置き換え、さらに驚いたことに、Claude code系のケースの多くも置き換えてくれました。ルーターが期待どおりにできないときは、キーワードで手動によりモデルを切り替えることで、セマンティックルーターの問題に対処しました。

しかし、Gemma 4が出たとき、そりゃもう多くの問題が解決しました。

まず第一に、Qwen 3.5 4BのセマンティックルーターをGemma 4 E4Bに置き換えました。これでセマンティックルーティングの問題が即座に解決し、以降不満はゼロです。これまでのところ、各リクエストを、私が選びたくて、プロンプトもしていたモデルに完璧にルーティングできています(Qwen 3.5 4Bはこれをよく失敗していました)。さらに、思考(thinking)を無効にしても問題なく動き、モデル選択も雷の速さです。このタスクに限った品質は、推論ありのQwen 3.5 9Bと同等です。ですが、ルーティングのためにその分だけメモリと時間を使う余裕はなかったので助かりました。

次に、Qwen 3.5 30B A3BとQwen 3.5 27Bの両方をGemma 4 26bに置き換えました。これらのモデルに通常ルーティングしていたタスクについては、期待をはるかに超えていました。基本タスク、画像タスク、数学、そしてごく軽いスクリプト作業が、明確に良くなっています。特定のコーディングタスク、たとえばフロントエンドのHTMLデザインや修正などでは、Qwen3 Next Coderや122bモデルを上回ってしまうことすらあります。大きめのコンテキストでもバッチリです。

Gemma 4 26bの一番良いところは、思考トークンがとても効率的なことです。無限ループや、超長大/反復的な出力生成に悩まされたことはまだ一度もありません。回答にかなり自信があり、数回のダブルチェック以外でやり直しを始めることはほとんどありません。超シンプルなタスクでは、そもそも考え込まないことすらあります!

なので、今の私のセットアップは以下のとおりです:

Gemma 4 E4B(セマンティックルーティング用)

Gemma 4 26b(推論オフ)- 一般的なチャット、非常に基本的なタスク、既存のデータ/出力に対する簡単なフォローアップ質問など

Gemma 4 26b(推論オン)- 推論が少しでも必要なもの、単純な数学、要約タスクなど。さらに、最新のクエリに「think」が含まれている場合は、このモデルを使うようにハードコードされています。主に、非常にシンプルなHTML/JavaScriptのUI系のことや、そして/またはPythonスクリプトにも使っています

Qwen 3 Next Coder 80B A3B Q6_K - その他すべてのコード生成

Qwen 3.5 122b UD Q4KXL(推論なし)- そのまま使うだけで、より現実世界の知識を必要とするもの

Qwen 3.5 122b Q6(推論)- Gemma 4よりも、推論スキルとより一般的な知識を必要とする最も複雑なクエリのために確保。さらに、最新のクエリに「ultrathink」が含まれている場合も、このモデルを使うようにハードコードされています

結果に関して私は超満足しています。歴史的にGemmaモデルは私をあまり感心させてくれなかったのですが、これは本当に私の本の中では良い出来でした!

submitted by /u/maxwell321
[link] [comments]