概念はささやき、文法は叫ぶ：スペクトル的反集中とトランスフォーマ表現の二重幾何

arXiv cs.LG / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、因果的内積（未埋め込み共分散に基づく）によって、17のトランスフォーマモデルと4つの言語ペアでの概念のクロスリンガルな輸送が可能かを検証し、効果がスペクトル正則化だけで説明できるのと区別できないことを示した（p = 0.95）。
特定の因果輸送メカニズムの裏付けは得られなかったが、その代わりに、5つのアーキテクチャ系統にわたって残差ストリームの「差の平均」ベクトルに反集中が強く観測されることが示された（p < 10^-33）。これはSAE特徴やGemma/Llamaでの線形プローブによっても支持される。
研究では「二重幾何（dual geometry）」が明らかにされる。すなわち、活性空間では概念に対応する方向がスペクトルの裾で反集中しやすい一方、静的な未埋め込み行のコントラストは高分散方向で集中しやすい。
split-injectionの因果介入と、8モデルに対する品詞（POS）タグのプロービングを用いて、文法（構文）は8/6のアーキテクチャで高分散サブスペースに優先的にエンコードされることを示し、Qwen 2.5ではアーキテクチャ固有のスペクトル構造と整合する形で反転が見られた。
結果として、トランスフォーマは文脈化された処理の中で意味内容をスペクトル的に“静かな”領域へ回転させ、文法への影響を抑えつつ概念を操作しやすくしている可能性が示唆される。

我々は、

a \citet{park2024linear}
が定義した因果内積（埋め込み解除共分散 $\Sigma$ によって定義される）が、言語をまたいだ概念輸送を可能にするかどうかを検証する。17のモデルと4つの言語ペアにわたって、スペクトル一致のランダム化検定を行うと、ホワイトニングされた因果アラインメントはスペクトル正則化のみからは区別できないことが分かる（ $p = 0.95$ ）。しかし、この失敗はより広い現象を明らかにする。すなわち、5つのアーキテクチャ・ファミリにわたって残差ストリーム差の平均ベクトルに反集中（anti-concentration）が観測される（ $p < 10^{-33}$ ）。また、この傾向はSAEの特徴によっても裏付けられる（例: $p = 4.5 \times 10^{-19}$ ）。さらに、GemmaとLlamaに対する線形プローブでも支持される。そこで我々は、\emph{二重の幾何}を発見する。すなわち、活性空間における概念方向はスペクトルの裾（tail）で反集中する一方で、静的な埋め込み解除行（unembedding-row）のコントラストは高分散方向で\emph{集中する}（ $p < 10^{-4}$ ）。Split-injectionによる因果介入は、GemmaおよびLlama上での機能的基底を支持する（Cohen's $d$ は最大で $1.80$ ）。加えて、8つのモデルにわたる品詞タグ（POS-tag）プロービングでは、8つのうち6つのアーキテクチャにおいて、構文が高分散部分空間に優先的にエンコードされることが示される（ $p < 0.013$ ）。さらにQwen~2.5ファミリでは、アーキテクチャ固有のスペクトル構造と整合する有意な反転が観測される。これらの結果は、トランスフォーマーが文脈化された処理の過程で、意味内容をスペクトル的に静かな領域へと回転させうること、そして文法的な攪乱を抑えながら操作可能な形で概念をエンコードしている可能性を示唆する。