| Gemma 4(26b-a4b)を試してみたところ、他のモデルよりどれだけ良いのかに少し驚きました。とはいえ、すぐに次の3つのことが分かりました:
私は、数えきれないほどのシステムプロンプトやメッセージを試しました。たとえば(これらの断片の一部だけでも、全部同じプロンプト内に入れた、など) これらは最適なプロンプトではないのかもしれません。ですが、私は行き詰まりと試行錯誤でかなり多くのことを突き止めた結果、得られたのがこれです。それでも結果はありませんでしたが… 上の例の推論(前述のシステムプロンプト全文が入っていたもの)には、「tool」「system」「check」という単語の言及や、それに類するものがまったくありません。モデルの説明に照らすと、特に奇妙です。そこには:
その後私は、それが自分のシステムプロンプトとは何かを尋ねました。すると正しく答えたので、最初からそれを参照できていたはずです。にもかかわらず、それに従わなかった理由を説明しようとしたときに幻覚(hallucination)を起こしていました。システムプロンプトをユーザーメッセージにコピペすることで、わずかに良い結果が得られました。 他にも同じように別の体験をした人はいますか? それに「聞く」こと、またはツールを呼び出すことを助けるようなプロンプトを見つけましたか? [link] [comments] |
Gemma 4 はシステムプロンプトとツールに対してひどい挙動を示す
Reddit r/LocalLLaMA / 2026/4/10
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 著者は、Gemma 4(26b-a4b)について、厳密な指示遵守を必要とするエージェント的なタスクよりも、一般的な質問応答でははるかに良い性能を示すと報告している。
- 彼らは、コンテキストウィンドウが埋まっていくにつれて、他のモデルよりも顕著に劣化が見られると主張している。
- システムプロンプトの無視が、複数のバリエーションをテストしても、また制約が明示されていても、Gemma 4ではしばしば起きると述べている。
- ツール呼び出しについて、明示的に指示してもほとんど実行しないと彼らは言っている。
- 彼らの実験に基づく結論として、このモデルは信頼性のあるツール利用ワークフロー向けに最適化されているというより、ベンチマーク形式のQA向けに最適化されているように見える、としている。




