大規模推論モデルの「システム1的思考」能力を探る
arXiv cs.CL / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模推論モデル(LRM)の「システム1的思考」を調査し、少ないトークン数で直感的かつ効率的に応答する能力に焦点を当てています。
- S1-Benchとして、モデルには難しくないシステム1質問を対象にした、多分野・多言語のベンチマークを提案しています。
- 28のLRMを対象にした実験では、システム1型の問題に対して期待に反して、精度と効率の両面で不足が見られました。
- 既存の効率的推論手法は、単純な質問への汎化がうまくいかないか、効率のために性能を犠牲にすることがあると分かりました。
- LRMsには、早い段階で困難さへの気づきが現れる一方で自信が低いこと、また難易度が隠れ状態に暗黙に符号化されていることが示唆されています。



