thinkingをOFFにしたらスコアが21%上がった——Qwen3.5:4b 24問テスト
Zenn / 3/16/2026
📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research
Key Points
- 21%のスコア改善が、Qwen3.5:4bの24問テストで“thinking OFF”状態で達成されたことが報告されている。
- この結果は、思考過程を伴うチェーン・オブ・ソートリーミング(思考過程)を必ずしも高いパフォーマンスに結びつけない可能性を示唆する。
- 特定のモデルとデータセットにおける現象であり、他のタスクやモデルでの再現性を検証する必要がある。
- プロンプト設計や評価指標、モデル挙動の解釈に対する影響があり、実務のAI活用やベンチマーク設計に示唆を与える。
thinkingモードを放置したまま24問を投げたら、9問が空回答で返ってきた。
トークンを全部「考える」に使い切って、答えを出す前に力尽きた。think: falseに切り替えたら 194/240点(80.8%) に回復した。
デフォルト設定のまま評価すると、このモデルの実力を21%低く見誤る。
thinking制御の落とし穴
Qwen3.5系はthinkingモード(推論ステップの出力)がデフォルトでONになっている。
問題は制御方法だ。よくある/v1/chat/completions(OpenAI互換エンドポイント)でthink: falseを渡しても無視される。空回答が返っ...
Continue reading this article on the original site.
Read original →Related Articles
The Honest Guide to AI Writing Tools in 2026 (What Actually Works)
Dev.to
The Honest Guide to AI Writing Tools in 2026 (What Actually Works)
Dev.to
AI Cybersecurity
Dev.to
Next-Generation LLM Inference Technology: From Flash-MoE to Gemini Flash-Lite, and Local GPU Utilization
Dev.to
The Wave of Open-Source AI and Investment in Security: Trends from Qwen, MS, and Google
Dev.to