システムプロンプトを使って思考を有効化/無効化できるようにしたいので、どのプロンプトが思考トークンを生成するかをモデルに選ばせるのではなく、自分で制御できるようにしています。これは、私がQwen-30b-A3bを気に入っていた理由の一つです。
同じ構成をgemma 4モデルで動かすのに苦労しています。今は26bで試しています。モデルは、推論をスキップするように求めるシステムプロンプトに対して、時々は応答するが、時々はしません。自分のコンテンツの前にユーザープロンプトへ `<thought off>` を入れると、うまく機能するようです。ただし、API呼び出しなどではそれはあまり現実的ではありません。
gemma4モデルで、システムプロンプトや/またはチャットテンプレートを使って思考をオン/オフ切り替えできる方法を考え出せた人がいるのか気になっています。
[リンク] [コメント]




