回答トークンは推論トレースをどう読むのか?定量推論における「思考型」LLMの自己読解パターン

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、定量推論に焦点を当て、「思考型」LLMが回答トークンで中間の推論トレースをどう読み取り統合しているかを調べます。
  • 注意(attention)の分析により、正解では推論トレースに沿って読解の焦点が前方へドリフトし、意味的なアンカーポイントへの集中が持続するという良性の自己読解パターンが見られますが、不正解では焦点が拡散し不規則な注意パターンになります。
  • 著者らは、この挙動をデコード中の内部的な確信として解釈し、モデルがもっともらしい解法分岐にコミットして重要な証拠を取り込むのだと述べています。
  • さらに、幾何学的な指標(プロセス制御)と意味的な指標(内容モニタリング)を組み合わせた Self-Reading Quality(SRQ)スコアに基づく、学習不要のステアリング手法を提案します。
  • 実験では、このSRQ駆動のステアリングが自己読解の質を明示的に高めることで、精度が一貫して向上することが示されています。

概要: 文章化された推論(reasoning traces)を持つLLMは、回答の前に推論の痕跡を生成する。先行研究の活性化ステアリング(activation steering)の取り組みは主に、これらの痕跡の形成を対象としている。しかし、回答トークンが実際にどのように推論を読み取り、統合して信頼できる結果を生成するのかについては、いまだ十分には理解されていない。定量的推論に焦点を当て、回答から推論への注意(answer-to-reasoning attention)を分析し、正しさと整合する良性の自己読解パターンを観察する。それは、推論トレースに沿って読みの焦点が前方へドリフトすること、ならびに主要な意味アンカーに対する集中が持続することによって特徴づけられる。一方で誤った解は、注意が拡散し不規則なパターンを示す。我々はこれを、回答デコード中の内部的な確実性(internal certainty)として解釈する。すなわち、モデルが成立しうる解の分岐を確約し、主要な根拠(evidence)を統合するのである。これに続いて、自己読解品質(Self-Reading Quality: SRQ)スコアに基づく、訓練不要(training-free)のステアリング手法を提案する。SRQは、プロセス制御のための幾何学的指標と、内容モニタリングのための意味的指標を組み合わせる。SRQはデータを選択してステアリングベクトルを構築し、推論を良性の自己読解へ導き、不確かでまとまりのない読みから遠ざける。実験の結果、我々の手法は一貫した精度向上をもたらすことが示される。