thinkingをOFFにしたらスコアが21%上がった——Qwen3.5:4b 24問テスト
Zenn / 3/16/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 21%のスコア改善が、Qwen3.5:4bの24問テストで“thinking OFF”状態で達成されたことが報告されている。
- この結果は、思考過程を伴うチェーン・オブ・ソートリーミング(思考過程)を必ずしも高いパフォーマンスに結びつけない可能性を示唆する。
- 特定のモデルとデータセットにおける現象であり、他のタスクやモデルでの再現性を検証する必要がある。
- プロンプト設計や評価指標、モデル挙動の解釈に対する影響があり、実務のAI活用やベンチマーク設計に示唆を与える。
thinkingモードを放置したまま24問を投げたら、9問が空回答で返ってきた。
トークンを全部「考える」に使い切って、答えを出す前に力尽きた。think: falseに切り替えたら 194/240点(80.8%) に回復した。
デフォルト設定のまま評価すると、このモデルの実力を21%低く見誤る。
thinking制御の落とし穴
Qwen3.5系はthinkingモード(推論ステップの出力)がデフォルトでONになっている。
問題は制御方法だ。よくある/v1/chat/completions(OpenAI互換エンドポイント)でthink: falseを渡しても無視される。空回答が返っ...
Continue reading this article on the original site.
Read original →



