PSA: Qwen3.6 は preserve_thinking を同梱。必ずオンにしてください。

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

Qwen 3.6 では、新しい `preserve_thinking` フラグ（推奨: `"preserve_thinking": True`）が導入され、従来の推論が各ターンごとに削除／再シリアライズされることを防ぎます。
この変更は、Qwen 3.5 テンプレートで見られていた以前の KV キャッシュ無効化の問題に対処することを目的としており、より良い KV キャッシュの利用によって推論効率を改善します。
推論の完全なコンテキストを保持することで、エージェント／ツール呼び出しのワークフローが向上し、モデルが先の推論を参照することができるため、やり直しを防げます。
投稿では、推論の保持が有効かどうかを確認するための実用的な検証テストが紹介されています（20 桁のランダムな数を 2 つ生成し、フォローアップのターンで 2 つ目を要求する）。
著者は、いくつかのクライアントではこのフラグにまだ対応していない可能性がある（例: 当時の LMStudio）と述べており、オープン PR を通じて oMLX での対応に取り組んでいるとのことです。

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

以前、テンプレートから発生するKVキャッシュ無効化の問題を解決するために、彼らの3.5テンプレートの修正についてこちらに投稿しました。多くの方に役立ったようです。

Qwen 3.6では、これを新しいpreserve_thinkingフラグで対応しました。彼らのモデルページ：

「chat_template_kwargs」: {"preserve_thinking": False} の代わりに「preserve_thinking」: True を使用してください。

この機能は特にエージェントのシナリオで有益です。完全な推論のコンテキストを維持することで意思決定の一貫性が高まり、さらに多くの場合、冗長な推論を減らすことで、全体のトークン消費を抑えられます。加えて、KVキャッシュの利用も改善し、推論モード／非推論モードの両方において推論の効率を最適化できます。

これが実際に意味すること：
モデルの以前の推論は、これまでのように毎ターン取り除かれて別の形で再シリアライズされるのではなく、コンテキスト内にそのまま保持されるようになりました。これがキャッシュ無効化問題の根本原因です。さらに、各ターンで毎回ゼロから始めるのではなく、これまでの推論を参照できるため、エージェント／ツール呼び出しのワークフローでもより良い結果が期待できます。

preserve thinking が有効になっていることを検証する方法：
簡単なテスト：モデルに次を尋ねます。
適当な20桁の数字を2つ考えて、それらが20桁であることを検証して。ツールは使わず、2つのうちのどちらか1つだけを、他には何も言わずに私に返して

モデルが実際に2つの数字を考えたか確認してください。そうでなければ、次のターンで再度、
では、あなたが考えた2つ目の数字を教えて

preserve_thinking: off - 前のターンの自分自身の推論にアクセスできなくなります。2つの数字を生成したことを覚えておらず、共有できる2つ目の数字がないと言うだけです。

preserve_thinking: on - モデルは以前の推論を参照でき、両方の数字を覚えていて、すぐにあなたへ2つ目を提示します。

ステータス：
現時点では、LMStudioがまだこれに対応していないことを確認できました。oMLXでの対応を追加するために、oMLXに対するPRをオープンしています。

投稿者 /u/onil_gova
[link] [comments]