Gemma 4 - lazy model なの？それとも自分が変なの？（ちょっと愚痴）

Reddit r/LocalLLaMA / 2026/4/13

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

Redditのユーザーが、ローカル環境で「Gemma 4」26B MoEモデルを（llama.cppとUnsloothによる量子化を用いて）テストし、Web検索ツールを使う代わりに、内蔵の知識から繰り返し回答してくることを見つける。
「徹底的に検索して」「深く掘り下げて」「用意された検索/取得ツールとスキルを使って」と明示的に指示しても、モデルはせいぜい1回程度のWeb検索を行うだけで、その後すぐにスニペットを読み流して止まってしまう。
ユーザーは、この挙動をQwen 3.5と対比しており、Qwen 3.5はプロンプトにより素直に従って多段のWebリサーチ（「クエスト全体」を掘り起こして出典を集める）を行う、と述べている。
彼らは、この挙動が想定どおりなのか、あるいはローカルの設定（構成）による問題なのかをコミュニティに確認したいとして、Gemma 4が「降伏」してより検索するようになるような、具体的な量子化および実行時設定を求めている。
全体として、この投稿は新製品のリリースというより、特定のモデル設定におけるツール使用やエージェントのような振る舞いを、実際に試して不満・診断している内容である。

タイトルにあるとおりです。具体的には 26b MoE。

私はこのモデルが好きになりたいと思っていました。かなり。Qwen 3.5 27b の代わりになるかもしれないと思ったんです。アップデートのたびに何度も戻ってきて試してみて、「改善しているはずだ」と期待し続けています。

私は llama.cpp で unsloth UD_Q4_K_XL を動かしています。main の最新コミットを使っています。—jinja についても知っています。interleaved thinking テンプレートについても知っています。低量子化 KV キャッシュは使っていません。これは、私が今までに動かした最初のモデルではありません。

毎回、テストすると同じことが分かります。スキルを使ったり Web を検索したりするときに、かなり“やる気がない”モデルです。質問すると、デフォルトでは、Web 検索を一切せずに自分の知識だけで答えます。Web 検索を明確に頼むと、今度は自分を下げて（言い方は変ですが）、_単一_ の Web 検索を実行し、検索結果のスニペットを素早く読み取ってから、内部で「このスニペットと自分の内蔵知識があれば答えるのに十分。これ以上は検索する必要がない」と判断します。

これは、次の場合でもです：

- 検索と取得のためのツールを渡している。検索ツールの説明には「これらのスニペットから答えないで、fetch を使え」とあり、fetch ツールには「この検索ツールで得たページを取得するためにこれを使え」とあります。

- 「徹底的に検索して」「深掘りして」「怠けるな」などと明確に指示している。

- コンテキストに「searching-the-web」という押しの強いスキルを入れており、上のことをすべて行うよう明確に指示している。

- 「適用できる可能性が少しでもあるなら、スキルを使わなければならない」と書かれた押しの強いスキル指示をコンテキストに入れている。

- 「searching-the-web スキルを参照せよ」と明確に伝えている。

Qwen 3.5 は、ほぼ聞いただけで、あなたのために何かを掘り起こす“全クエスト”に行きます。Gemma 4 は、青くなるくらい叫ばないとダメで、それでもたった1回の検索すら、ろくにやる気が出ません。私の唯一の結論は、単に（AI における「want」の意味はさておき）Web を検索したくないだけ、ということです。

もし私が変なら言ってください。うまく動いていて、喉を押さえつけなくても Web で深掘りしてくれるなら、そうだと言ってください。そして、この点で“降参させる”ためにどんな quant／設定を使っているのか、親切に教えてください。

submitted by /u/Pyrenaeda
[link] [comments]