Qwen3.5 27B は思考を止めることを拒む

Reddit r/LocalLLaMA / 2026/3/15

💬 オピニオンTools & Practical Usage

共有:

要点

Reddit の投稿は、他の Qwen および Nemotron モデルとは異なり、llama-server で --chat-template-kwargs '{"enable_thinking": false}' または --reasoning off を使用して思考を止めさせることが強制できないと報告している。
モデルは <think> タグを挿入せず内部思考を続けるようだが、思考を </think> で終えるため、抑制メソッドがこのバリアントには適用されない可能性を示している。
この問題は Qwen3.5 27B に特有のようで、/u/liftheavyscheisse さんが投稿した r/LocalLLaMA のスレッドで llama.cpp のコミット b8295 を参照して議論されている。
著者は他の人が同じ問題に遭遇しているか、回避策を知っているかを尋ねており、潜在的なバグまたはモデル特有の挙動を示唆している。

私は --chat-template-kwargs '{"enable_thinking": false}' およびその後継の --reasoning off を llama-server で試してみましたが、他のモデルではうまく動作する一方、Qwen3.5 27B モデルでは動作しませんでした。

とにかく思考を続ける（タグは挿入されず、しかし思考はで終わる）。

この問題を他の人も経験していますか、解決策を知っていますか？

llama.cpp b8295