LM Studio上でQwen3.6をOpenWebUIに使う際の「thinkingトークン」パース問題

Reddit r/LocalLLaMA / 2026/4/18

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

ユーザーは、LM Studio上でQwen3.6-35B-a3bを動かし、OpenWebUIで「preserve thinking」を有効にした構成で、推論部分にシングルクォートまたはダブルクォートが含まれると約30%の確率で出力のパースが崩れると報告しています。
問題が起きると、推論セクションの残りが通常の出力として扱われるようになり、ツール呼び出しにも影響して正しく機能しなくなることがあります。
ツール呼び出しの処理が失敗し、応答が途中で止まってそれ以上の出力トークンが出ない場合があるとされています。
ユーザーは同様の問題はQwen3.5では発生していなかったとして、他にも同じパース／トークナイズの問題が起きている人がいるか質問しています。

qwen3.5ではなかったのに、今回次のような問題が起きています。出力の推論部分に引用符（"）や一重引用符（'）があると、残りを通常の出力として出力し始めます（ただし常にではなく、発生するのは30%の時間です）。

これによりツール呼び出しが壊れることもあり、レスポンスが出力トークンなしでそのまま停止します。

私はWindows上のLM Studioで、RTX5090を使ってqwen3.6-35b-a3bをホスティングしています。推奨の推論設定で、"preserve thinking" は有効です（これを無効にしても改善しません）。OpenWebUI側では、"native functions" が有効になっています。

同様の問題が起きている方はいませんか？

submitted by /u/luckyj
[link] [comments]