thinkingをOFFにしたらスコアが21%上がった——Qwen3.5:4b 24問テスト

Zenn / 3/16/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

Key Points

21%のスコア改善が、Qwen3.5:4bの24問テストで“thinking OFF”状態で達成されたことが報告されている。
この結果は、思考過程を伴うチェーン・オブ・ソートリーミング（思考過程）を必ずしも高いパフォーマンスに結びつけない可能性を示唆する。
特定のモデルとデータセットにおける現象であり、他のタスクやモデルでの再現性を検証する必要がある。
プロンプト設計や評価指標、モデル挙動の解釈に対する影響があり、実務のAI活用やベンチマーク設計に示唆を与える。

thinkingモードを放置したまま24問を投げたら、9問が空回答で返ってきた。トークンを全部「考える」に使い切って、答えを出す前に力尽きた。think: falseに切り替えたら 194/240点（80.8%）に回復した。デフォルト設定のまま評価すると、このモデルの実力を21%低く見誤る。 thinking制御の落とし穴 Qwen3.5系はthinkingモード（推論ステップの出力）がデフォルトでONになっている。問題は制御方法だ。よくある/v1/chat/completions（OpenAI互換エンドポイント）でthink: falseを渡しても無視される。空回答が返っ...

Continue reading this article on the original site.

Read original →

The Honest Guide to AI Writing Tools in 2026 (What Actually Works)

Dev.to

The Honest Guide to AI Writing Tools in 2026 (What Actually Works)

Dev.to

AI Cybersecurity

Dev.to

Next-Generation LLM Inference Technology: From Flash-MoE to Gemini Flash-Lite, and Local GPU Utilization

Dev.to

The Wave of Open-Source AI and Investment in Security: Trends from Qwen, MS, and Google

Dev.to

thinkingをOFFにしたらスコアが21%上がった——Qwen3.5:4b 24問テスト

Key Points

Related Articles

The Honest Guide to AI Writing Tools in 2026 (What Actually Works)

The Honest Guide to AI Writing Tools in 2026 (What Actually Works)

AI Cybersecurity

Next-Generation LLM Inference Technology: From Flash-MoE to Gemini Flash-Lite, and Local GPU Utilization

The Wave of Open-Source AI and Investment in Security: Trends from Qwen, MS, and Google

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer