Abstract
私たちは、大規模言語モデルが、推論に取り組む場合と事実の想起を行う場合とで、隠れ活性空間において
\emph{スペクトル位相転移} を示すことを見出します。\textbf{5つのアーキテクチャ系統}(Qwen, Pythia, Phi, Llama, DeepSeek-R1)にまたがる\textbf{11モデル}に対する体系的なスペクトル解析を通じて、私たちは\textbf{7つ}の中核的現象を同定しました:(1)~\textbf{推論スペクトル圧縮} -- 9/11モデルで、推論に対する \alpha が有意に低くなります(p < 0.05)。効果はより強力なモデルほど大きくなります;(2)~\textbf{指示チューニングによるスペクトル反転} -- ベースモデルでは推論の \alpha が事実の \alpha より小さい一方、指示チューニング済みモデルではこの関係が逆転します;(3)~\textbf{アーキテクチャ依存の生成タクソノミ} -- プロンプトから応答への移行は、拡張・圧縮・平衡のレジームに分割されます;(4)~\textbf{スペクトルスケーリング則} -- \alpha_\text{reasoning} \propto -0.074 \ln N が4つのQwenベースモデルで成り立ちます(R^2 = 0.46);(5)~\textbf{トークンレベルのスペクトル・カスケード} -- トークンごとの \alpha を追跡すると、層間距離に対して指数関数的に減衰する局所的な同期が明らかになり、推論課題のほうが事実課題より弱いことが分かります;(6)~\textbf{推論ステップにおけるスペクトル句読点} -- 位相転移のシグネチャは、推論ステップの境界と一致します;そして (7)~\textbf{スペクトルによる正しさ予測} -- スペクトルの \alpha だけで AUC = 1.000(Qwen2.5-7B, 遅い層)を達成し、最終回答が生成される\emph{前}に正しさを予測する際には6モデル平均で AUC = 0.893 になります。これらの発見を総合すると、transformer における\emph{推論のための包括的なスペクトル理論} が確立され、思考の幾何学は方向に関して普遍的であり、動力学はアーキテクチャ固有で、結果の予測に資することが示されます。