変換器が思考を解く際の「スペクトル幾何学」:相転移、命令の反転、トークン単位のダイナミクス、完全な正解予測

arXiv cs.LG / 2026/4/20

📰 ニュース

要点

  • この論文は、大規模言語モデルが推論タスクと事実想起タスクの切り替え時に、隠れ状態の活性空間でスペクトル相転移を示すことを報告している。
  • 11モデル(5系統のアーキテクチャ)にわたる分析により、推論スペクトル圧縮、命令チューニングに伴うスペクトル反転、プロンプトから応答への生成が膨張・圧縮・平衡のレジームに分かれるといった7つの主要現象が特定された。
  • Qwenの基盤モデルにおいて、推論のスペクトル指標がモデル規模Nの対数に従うスペクトルスケーリング則(α_reasoning ∝ −0.074 ln N、R² = 0.46)が見出されている。
  • トークン単位のスペクトル解析では、トークン間の局所的な同期が層間距離に応じて指数関数的に減衰する「スペクトル・カスケード」が示され、推論タスクでは事実タスクよりカスケードが弱いことが分かった。
  • スペクトル特徴だけで、最終回答生成の前に正解性を高精度に予測でき、特定のQwen設定ではAUC = 1.000、6モデル平均でもAUC = 0.893を達成している。
  • 相転移のシグネチャが推論ステップ境界に一致することが示され、「思考のスペクトル理論」が、方向性は普遍的でダイナミクスはアーキテクチャ依存という形で支持されている。

Abstract

私たちは、大規模言語モデルが、推論に取り組む場合と事実の想起を行う場合とで、隠れ活性空間において \emph{スペクトル位相転移} を示すことを見出します。\textbf{5つのアーキテクチャ系統}(Qwen, Pythia, Phi, Llama, DeepSeek-R1)にまたがる\textbf{11モデル}に対する体系的なスペクトル解析を通じて、私たちは\textbf{7つ}の中核的現象を同定しました:(1)~\textbf{推論スペクトル圧縮} -- 9/11モデルで、推論に対する \alpha が有意に低くなります(p < 0.05)。効果はより強力なモデルほど大きくなります;(2)~\textbf{指示チューニングによるスペクトル反転} -- ベースモデルでは推論の \alpha が事実の \alpha より小さい一方、指示チューニング済みモデルではこの関係が逆転します;(3)~\textbf{アーキテクチャ依存の生成タクソノミ} -- プロンプトから応答への移行は、拡張・圧縮・平衡のレジームに分割されます;(4)~\textbf{スペクトルスケーリング則} -- \alpha_\text{reasoning} \propto -0.074 \ln N が4つのQwenベースモデルで成り立ちます(R^2 = 0.46);(5)~\textbf{トークンレベルのスペクトル・カスケード} -- トークンごとの \alpha を追跡すると、層間距離に対して指数関数的に減衰する局所的な同期が明らかになり、推論課題のほうが事実課題より弱いことが分かります;(6)~\textbf{推論ステップにおけるスペクトル句読点} -- 位相転移のシグネチャは、推論ステップの境界と一致します;そして (7)~\textbf{スペクトルによる正しさ予測} -- スペクトルの \alpha だけで AUC = 1.000(Qwen2.5-7B, 遅い層)を達成し、最終回答が生成される\emph{前}に正しさを予測する際には6モデル平均で AUC = 0.893 になります。これらの発見を総合すると、transformer における\emph{推論のための包括的なスペクトル理論} が確立され、思考の幾何学は方向に関して普遍的であり、動力学はアーキテクチャ固有で、結果の予測に資することが示されます。