PSA: Qwen3.5が考えすぎる問題で困っていませんか?ツールを与えると、劇的に改善します。

Reddit r/LocalLLaMA / 2026/4/14

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この記事では、Qwen 3.5 の「考えすぎ(overthinking)」というよくある問題に触れ、それを抑えるための実用的な設定変更を提案します。
  • サンプリングパラメータ、特に presence_penalty の有無と値を確認することを推奨し、presence_penalty をおよそ 1.0〜1.5 に設定(少し実験しながら調整)します。
  • 重要な回避策は、ツール/ファンクション呼び出しを有効にすることです。ツールが利用可能だと、Qwen 3.5 は長い「推論トレース」から、より短く自然な応答スタイルへ切り替わります。
  • 著者は Open-WebUI 上で llama-server を使ってテストしたと報告しており、その際「native」な function calling が有効になっていることを確認しています。また、他のツール対応のハーネスでは、すでにこの問題を回避できるはずだと述べています。
  • TL;DR は、「実際には使わない場合でも」ツールを有効化し、推奨されるサンプリング設定に従うことで、考えすぎを軽減するというものです。

みんながすでに、Qwen 3.5が過剰に考え込む(over-thinking)という話をしている投稿を見たことがあるはずだと思います。あるいは、あなた自身が実際にその現象を体験したことがあるかもしれません。リリースから約2か月しか経っていないのに、いまだにこの問題について話している人がいるので、このスレッドを出すのは良いアイデアかもしれないと思いました。

まず、明らかな点です。サンプリングパラメータが正しく設定されていることを確認してください。これが「修正」の最初の部分で、presence_penaltyの値に関係します。1.0〜1.5に設定してください。可能なら少し実験してみてください。ここにいるほとんどの方は、たぶんすでにこれを知っているでしょう。では「本当の」修正に進みます。

Qwen 3.5でツールが一切使えない状態になると、Gemini 3/Gemma 4のような推論トレースに入り込みます。これは、こちらで見られる通りの、嬉しい箇条書きスタイルです。

これは重要です。3.5でツールを有効にすると、推論のスタイルが完全に変わり、代わりに、短くてより自然なClaudeのようなトレースに入ります。こちらで示されている通りです。Claudeを使ったことがあるなら、たぶんこのスタイルをすぐに見分けられるはずです。ちなみに、これはOpen-WebUIの中でllama-server経由でモデルを動かしている状況でのものです。私がやったのは、付属のビルトインツールを有効にしただけです。(OWIを使う場合は、「native」関数呼び出しを有効にするよう注意してください。)ただし、これはOWIに限った話ではありません。OpenCodeやHermes Agentのようなツールがすでに入っているハーネスを使っているなら、そもそも過剰に考え込む問題は起きないはずです。

でも、要するにそれだけです。なので、ツールなしでモデルを動かしているなら、強くおすすめします。どうやら、偽物のツールがあると伝えるだけでも効果があるそうですが、私は自分では試していません。

これで、この問題に悩まされている誰かの助けになればうれしいです。:)

TL;DR: 使っていなくてもツールを有効にし、サンプリングパラメータがUnslothsのガイド通りになっていることを確認してください。

submitted by /u/ayylmaonade
[link] [comments]