Gemma 4 の思考(thinking)システムプロンプト

Reddit r/LocalLLaMA / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • 投稿では、システムプロンプトやチャットテンプレートを使って、Gemma 4モデルの「thinking」(推論)機能を確実に有効/無効化する方法をどう実現するかが問われています。
  • 著者は、26Bモデルでシステムプロンプトにより推論を制御しようとした際に挙動が一貫しないと報告しており、推論をスキップする指示に従う場合もあれば従わない場合もあるようです。
  • 回避策として、実際のコンテンツの前にユーザープロンプトへ `<thought off>` のような特殊トークンを置くと動作するようですが、API連携では現実的ではないとされています。
  • 質問は、Gemma 4 に対して推論のオン/オフを切り替える堅牢な方法を誰かが考案したかどうかを共有してもらうことを促しています。

システムプロンプトを使って思考を有効化/無効化できるようにしたいので、どのプロンプトが思考トークンを生成するかをモデルに選ばせるのではなく、自分で制御できるようにしています。これは、私がQwen-30b-A3bを気に入っていた理由の一つです。

同じ構成をgemma 4モデルで動かすのに苦労しています。今は26bで試しています。モデルは、推論をスキップするように求めるシステムプロンプトに対して、時々は応答するが、時々はしません。自分のコンテンツの前にユーザープロンプトへ `<thought off>` を入れると、うまく機能するようです。ただし、API呼び出しなどではそれはあまり現実的ではありません。

gemma4モデルで、システムプロンプトや/またはチャットテンプレートを使って思考をオン/オフ切り替えできる方法を考え出せた人がいるのか気になっています。

提出者 /u/No_Information9314
[リンク] [コメント]