LM Studio上でQwen3.6をOpenWebUIに使う際の「thinkingトークン」パース問題

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • ユーザーは、LM Studio上でQwen3.6-35B-a3bを動かし、OpenWebUIで「preserve thinking」を有効にした構成で、推論部分にシングルクォートまたはダブルクォートが含まれると約30%の確率で出力のパースが崩れると報告しています。
  • 問題が起きると、推論セクションの残りが通常の出力として扱われるようになり、ツール呼び出しにも影響して正しく機能しなくなることがあります。
  • ツール呼び出しの処理が失敗し、応答が途中で止まってそれ以上の出力トークンが出ない場合があるとされています。
  • ユーザーは同様の問題はQwen3.5では発生していなかったとして、他にも同じパース/トークナイズの問題が起きている人がいるか質問しています。

qwen3.5ではなかったのに、今回次のような問題が起きています。出力の推論部分に引用符(")や一重引用符(')があると、残りを通常の出力として出力し始めます(ただし常にではなく、発生するのは30%の時間です)。

これによりツール呼び出しが壊れることもあり、レスポンスが出力トークンなしでそのまま停止します。

私はWindows上のLM Studioで、RTX5090を使ってqwen3.6-35b-a3bをホスティングしています。推奨の推論設定で、"preserve thinking" は有効です(これを無効にしても改善しません)。OpenWebUI側では、"native functions" が有効になっています。

同様の問題が起きている方はいませんか?

submitted by /u/luckyj
[link] [comments]