AI Navigate

thinkingをOFFにしたらスコアが21%上がった——Qwen3.5:4b 24問テスト

Zenn / 3/16/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 21%のスコア改善が、Qwen3.5:4bの24問テストで“thinking OFF”状態で達成されたことが報告されている。
  • この結果は、思考過程を伴うチェーン・オブ・ソートリーミング(思考過程)を必ずしも高いパフォーマンスに結びつけない可能性を示唆する。
  • 特定のモデルとデータセットにおける現象であり、他のタスクやモデルでの再現性を検証する必要がある。
  • プロンプト設計や評価指標、モデル挙動の解釈に対する影響があり、実務のAI活用やベンチマーク設計に示唆を与える。
thinkingモードを放置したまま24問を投げたら、9問が空回答で返ってきた。 トークンを全部「考える」に使い切って、答えを出す前に力尽きた。think: falseに切り替えたら 194/240点(80.8%) に回復した。 デフォルト設定のまま評価すると、このモデルの実力を21%低く見誤る。 thinking制御の落とし穴 Qwen3.5系はthinkingモード(推論ステップの出力)がデフォルトでONになっている。 問題は制御方法だ。よくある/v1/chat/completions(OpenAI互換エンドポイント)でthink: falseを渡しても無視される。空回答が返っ...

Continue reading this article on the original site.

Read original →