| 以前、テンプレートから発生するKVキャッシュ無効化の問題を解決するために、彼らの3.5テンプレートの修正についてこちらに投稿しました。多くの方に役立ったようです。 Qwen 3.6では、これを新しいpreserve_thinkingフラグで対応しました。彼らのモデルページ:
これが実際に意味すること: preserve thinking が有効になっていることを検証する方法: モデルが実際に2つの数字を考えたか確認してください。そうでなければ、次のターンで再度、 preserve_thinking: off - 前のターンの自分自身の推論にアクセスできなくなります。2つの数字を生成したことを覚えておらず、共有できる2つ目の数字がないと言うだけです。 preserve_thinking: on - モデルは以前の推論を参照でき、両方の数字を覚えていて、すぐにあなたへ2つ目を提示します。 ステータス: [link] [comments] |
PSA: Qwen3.6 は preserve_thinking を同梱。必ずオンにしてください。
Reddit r/LocalLLaMA / 2026/4/17
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- Qwen 3.6 では、新しい `preserve_thinking` フラグ(推奨: `"preserve_thinking": True`)が導入され、従来の推論が各ターンごとに削除/再シリアライズされることを防ぎます。
- この変更は、Qwen 3.5 テンプレートで見られていた以前の KV キャッシュ無効化の問題に対処することを目的としており、より良い KV キャッシュの利用によって推論効率を改善します。
- 推論の完全なコンテキストを保持することで、エージェント/ツール呼び出しのワークフローが向上し、モデルが先の推論を参照することができるため、やり直しを防げます。
- 投稿では、推論の保持が有効かどうかを確認するための実用的な検証テストが紹介されています(20 桁のランダムな数を 2 つ生成し、フォローアップのターンで 2 つ目を要求する)。
- 著者は、いくつかのクライアントではこのフラグにまだ対応していない可能性がある(例: 当時の LMStudio)と述べており、オープン PR を通じて oMLX での対応に取り組んでいるとのことです。



