Gemma4 26Bの推論能力はヤバい。

Reddit r/LocalLLaMA / 2026/4/6

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

著者はGemma4 26B MoEを試してみたと報告しており、その推論性能が自分のマルチツールエージェント課題にとって大きな飛躍だと言っています。Gemini-3-Flashのようなモデルや、著者がテストした他のローカルオプションよりも優れていたとのことです。
構成は、Gemini SDK／agent hubに加えてRaspberry Piのサテライトを使ったスマートホーム風の音声／スピーカー構成を採用し、さらに複雑なやり取りや、コネクタのピン配列のような画像ベースのタスクにはDiscordボットを使用しています。
重要なベンチマーク（「ウォルマートに着いたら買い物リストを送って」）では、複数のツール呼び出しが必要になります。具体的には、適切な店舗のためのメモリ参照、住所／場所からのジオコーディング、買い物リストの取得、そして電話への通知スケジューリングです。著者は、他のローカルモデルは特にRAG／メモリ参照が不完全な場合に失敗しがちなのに対し、Gemma4は信頼性高くこなせたと主張しています。
ワークフローは、トークン／ツール入力を減らすためのスクリプトレベルの最適化に依存しています。さらに、明示的なCoTはオフにしつつ、計画（planning）やセマンティックなツール注入を行うことで、Gemma4が構造化されたツール駆動の「擬似推論」の恩恵を受けていることを示唆しています。
著者は、対話体験がGemini 3 Flashに似ていると述べています。ただし、完全に手順を毎回ステップバイステップで再提示する必要があるというよりは、たまに追加のプロンプトが必要になる程度だということです。

いろいろ試しています。まずは友人の計算機で実験して、彼に借りさせてもらって。次にGemini SDKを使って、600マイルも離れたところから彼のMacBookを盗み続けなくて済むようにしました。もともと自宅のエージェントは、私が試した他のどのモデルでも、その推論能力を超えられなかったため、Gemini-3-Flash経由で動かしていました。

いま私がそれを動かしているスクリプト（複数）は、マルチスピーカーのスマートホームスピーカー構成の再実装です。中心となるLLMハブ（現時点ではRaspberry Pi 5）に対して、いくつかのrasperry pi zeroがスピーカーの衛星として機能しています。さらに、スマホやPCからより複雑なタスクでやり取りするために使っている専用のDiscordボットもあります。画像から情報を必要とするタスク、たとえばコネクタのピン配列のようなものも、手伝ってほしいものがあります。

あらゆる種類のローカルモデルを試し、ツールからのトークン入力やRAGを減らすようにスクリプトを最適化して、ローカルモデルが混乱せずに動くようにしてきましたが、どれも追いつけませんでした。私の主なベンチマークである「買い物に行ったら（walmartに着いたら）私の食料品リストを送って」は、うまく動かすために、合計で6種類のツール呼び出しがしっかり必要になります。具体的には、まずメモリデータベースから、私が言うwalmartがどれかを学習すること（特にRAGが取り出せないと難しい）、次に住所を見つけてそれを専用ツールに入れ、住所または一般的な場所（Walmart、[CITY, STATE]）から座標を返してもらって、その該当するwalmartのGPS座標を取得すること、さらにそのリスト用のデータベースの中から食料品リストを見つけること、そしてその座標に近づいたときに、そのリストを見栄えよく整形した形で電話通知のイベントを設定することです。私がそれを実行できるようにすることができた唯一のローカルモデルはGPT-OSS 120bで、それをローカルで動かすためのハードウェアを私は一生持てません。OSSでもやはり混乱してしまい、完全にクリーンなチャット履歴の状態でのみ、なんとかそのタスクを成功させられるという状況でした。なお、私はチャット履歴をユーザー／モデル／ツールの入力・返答で共有する形で30件に制限しています。より長い会話を維持できる力は、攻めたメモリデータベースの更新とRAGによって支えています。

そこでGemma4、特に26B MoEです。walmartのタスクを見事に処理します。他にも他のエージェント的なタスク、私のかなりマニアックなプロジェクトカーに関する変なことの調査、単体のECUクランクトリガーのような話題など、いろいろ試し始めました。作業の多くは専用のプランニングツール経由で行い、CoT／推論をオフにしても高速さを保ちながら、ある種の擬似推論のようなものを提供します。そして、ツール＋セマンティックなツール注入で、なるべく的を絞り続けられるようにしています。それでも、こうした助けがあっても、他のどのモデルファミリーも、私が投げているものを最初から扱い始めるところまで到達できていません。

これはすごいです。触ってみると、3 Flashとほぼ同じ感覚です。いくつかの面では少しだけ間抜けですが、それでもだいたいは、やるべきことを全面的に手順立てして指示しないといけない、というレベルではなく、ちょっとだけ背中を押してあげれば済むことが多いです。つまり、他のモデルで私がやらないといけないように、結局全部自分でやる必要が出るほどにはならないんです。

小さくて速いのに、こんな能力があるなんて、本当にただただ感嘆してます。

submitted by /u/Mrinohk
[link] [comments]