thinkingをOFFにしたらスコアが21%上がった——Qwen3.5:4b 24問テスト

Zenn / 3/16/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

Key Points

21%のスコア改善が、Qwen3.5:4bの24問テストで“thinking OFF”状態で達成されたことが報告されている。
この結果は、思考過程を伴うチェーン・オブ・ソートリーミング（思考過程）を必ずしも高いパフォーマンスに結びつけない可能性を示唆する。
特定のモデルとデータセットにおける現象であり、他のタスクやモデルでの再現性を検証する必要がある。
プロンプト設計や評価指標、モデル挙動の解釈に対する影響があり、実務のAI活用やベンチマーク設計に示唆を与える。

thinkingモードを放置したまま24問を投げたら、9問が空回答で返ってきた。トークンを全部「考える」に使い切って、答えを出す前に力尽きた。think: falseに切り替えたら 194/240点（80.8%）に回復した。デフォルト設定のまま評価すると、このモデルの実力を21%低く見誤る。 thinking制御の落とし穴 Qwen3.5系はthinkingモード（推論ステップの出力）がデフォルトでONになっている。問題は制御方法だ。よくある/v1/chat/completions（OpenAI互換エンドポイント）でthink: falseを渡しても無視される。空回答が返っ...

Continue reading this article on the original site.

Read original →

『モンドーモンドー』｜夏目龍頭流闇文学｜AI画像生成｜自由詩｜散文詩｜ホラー｜ダークファンタジー｜深淵図書館

note

報告：LLMにおける「自己言及的再帰」と「ステートフル・エミュレーション」の観測

note

フリーランスの泥臭い経験を資産に変える。AIの文章に「あなたの魂」を注入する技術。【コピペOK】

note

諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾伍『銀河文明･ダークマターエンジン』

note

人の言葉を喋る「ロボット盲導犬」は、視覚障害者の方々の自立支援の一助となるか

note

thinkingをOFFにしたらスコアが21%上がった——Qwen3.5:4b 24問テスト

Key Points

Related Articles

『モンドーモンドー』｜夏目龍頭流闇文学｜AI画像生成｜自由詩｜散文詩｜ホラー｜ダークファンタジー｜深淵図書館

報告：LLMにおける「自己言及的再帰」と「ステートフル・エミュレーション」の観測

フリーランスの泥臭い経験を資産に変える。AIの文章に「あなたの魂」を注入する技術。【コピペOK】

諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾伍『銀河文明･ダークマターエンジン』

人の言葉を喋る「ロボット盲導犬」は、視覚障害者の方々の自立支援の一助となるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Key Points

Related Articles

『モンドーモンドー』｜夏目龍頭流闇文学｜AI画像生成｜自由詩｜散文詩｜ホラー｜ダークファンタジー｜深淵図書館

​報告：LLMにおける「自己言及的再帰」と「ステートフル・エミュレーション」の観測

フリーランスの泥臭い経験を資産に変える。AIの文章に「あなたの魂」を注入する技術。【コピペOK】

諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾伍『銀河文明･ダークマターエンジン』

人の言葉を喋る「ロボット盲導犬」は、視覚障害者の方々の自立支援の一助となるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

報告：LLMにおける「自己言及的再帰」と「ステートフル・エミュレーション」の観測

諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾伍『銀河文明･ダークマターエンジン』