Therefore I am. I Think

arXiv cs.AI / 4/2/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 本論文は、大規模言語の推論モデルにおいて「考える前に決めるのか/決めてから考えるのか」という問いを検討し、初期に符号化された意思決定が chain-of-thought を形作る証拠を提示しています。
  • 単純な線形プローブにより、生成前の活性からツール呼び出しの意思決定を高い確信度で復号でき、場合によっては推論トークンが1つも出る前から検出できることを示します。
  • Activation steering によって意思決定の方向を摂動させると、熟考(deliberation)が増幅し、多くの例で振る舞いが反転しうる(モデル/ベンチマークにより 7〜79%)と報告しています。
  • さらに行動分析から、意思決定を変えると chain-of-thought が「反転を正当化する」形になり、必ずしも元の判断に抵抗して議論するわけではないことを示唆しています。

Abstract

We consider the question: when a large language reasoning model makes a choice, did it think first and then decide to, or decide first and then think? In this paper, we present evidence that detectable, early-encoded decisions shape chain-of-thought in reasoning models. Specifically, we show that a simple linear probe successfully decodes tool-calling decisions from pre-generation activations with very high confidence, and in some cases, even before a single reasoning token is produced. Activation steering supports this causally: perturbing the decision direction leads to inflated deliberation, and flips behavior in many examples (between 7 - 79% depending on model and benchmark). We also show through behavioral analysis that, when steering changes the decision, the chain-of-thought process often rationalizes the flip rather than resisting it. Together, these results suggest that reasoning models can encode action choices before they begin to deliberate in text.