要旨: 本論文では、次の問いを考察します。大規模言語推論モデルがある選択を行うとき、そのモデルは「まず考えてから決めた」のか、「まず決めてから考えた」のか、どちらなのでしょうか。本論文では、検出可能な初期エンコードされた意思決定が、推論モデルにおける思考過程(chain-of-thought)を形作るという証拠を提示します。具体的には、単純な線形プローブによって、生成前の活性化からツール呼び出しの意思決定を非常に高い確信度で復号でき、場合によっては、単一の推論トークンが生成される前からさえ可能であることを示します。さらに、活性化ステアリングは因果的にこれを支持します。すなわち、意思決定方向に摂動を加えると、熟考(deliberation)が膨らみ、また多くの例で挙動が反転します(モデルとベンチマークにより 7 - 79% の範囲)。加えて、行動分析により、ステアリングによって意思決定が変わった場合、思考過程はそれに抵抗するというより、しばしばその反転を合理化することを示します。これらの結果は、推論モデルが、文章で推論を始める前に、行動選択をエンコードしている可能性を示唆しています。
それゆえに私は考える。私は思う
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語の推論モデルにおいて「考える前に決めるのか/決めてから考えるのか」という問いを検討し、初期に符号化された意思決定が chain-of-thought を形作る証拠を提示しています。
- 単純な線形プローブにより、生成前の活性からツール呼び出しの意思決定を高い確信度で復号でき、場合によっては推論トークンが1つも出る前から検出できることを示します。
- Activation steering によって意思決定の方向を摂動させると、熟考(deliberation)が増幅し、多くの例で振る舞いが反転しうる(モデル/ベンチマークにより 7〜79%)と報告しています。
- さらに行動分析から、意思決定を変えると chain-of-thought が「反転を正当化する」形になり、必ずしも元の判断に抵抗して議論するわけではないことを示唆しています。

