要旨: 内部表現の幾何学的構造を理解することは、メカニスティック解釈可能性における中心的な目標である。これまでの研究では、隠れマルコフモデルによって生成された系列で学習したトランスフォーマが、その残差ストリーム内に、確率的な信念状態を単体(シンプレックス)状の幾何として符号化することが示されており、頂点は潜在の生成状態に対応していた。自然言語テキストで学習した大規模言語モデルでも、これに類似した幾何学的表現が生じるのかどうかは、未解決の問題である。
本論文では、トランスフォーマ表現における単体構造の部分空間の候補を発見するためのパイプラインを提案する。ここでは、スパースオートエンコーダ(SAE)、SAE特徴に対するk-部分空間クラスタリング、そしてAANetによる単体フィッティングを組み合わせる。既知の信念状態の幾何を持つ、多部パルティト(multipartite)な隠れマルコフモデルで学習したトランスフォーマに対して、このパイプラインを検証する。さらにGemma-2-9Bに適用すると、単体状の幾何を示す候補として優先度の高いクラスタが13個(K \geq 3)同定される。
重要な課題は、本当に信念状態を符号化しているのか、それともタイル状のアーティファクトによるものなのかを区別することである。潜在変数は、混合座標(mixture coordinates)が、個々の特徴のいずれを超える予測的信号を運ばないにもかかわらず、単体状の部分空間に広がることがあり得る。そこで本研究では、識別の主要な検定として、バリセントリック予測(barycentric prediction)を採用する。13個の優先クラスタのうち、頂点近傍サンプルに対しては3つが非常に有意な優位性を示し(Wilcoxon p < 10^{-14})、単体内部サンプルに対しては4つが優位性を示す。合わせて5つの異なる実クラスタが、少なくとも1つの分割でいずれかの検定を通過する。一方でヌル(null)クラスタはどれもいずれの分割でも通過しない。さらに、768_596という1つのクラスタは、データセットにおける最高の因果的ステアリングスコアも達成する。これは、受動的予測と能動的介入が一致する唯一のケースである。本研究では、これらの知見を、Gemma-2-9Bの表現空間に本物の信念に似た幾何が存在するという予備的証拠として提示し、この解釈を確認するために必要となる構造化された評価を特定する。
Sparse Autoencodersで信念の幾何構造を見つける
arXiv cs.AI / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、機構的解釈可能性に取り組み、大規模言語モデルが内部表現の中に「信念状態(belief states)」をシンプレックス(単体)形の幾何学的構造として符号化しているかどうかを問い、そのような性質が隠れマルコフモデルデータで訓練されたトランスフォーマーで示されていたことを踏まえる。
- スパースオートエンコーダ(SAE)、SAE特徴に対するk-サブスペースクラスタリング、さらにシンプレックスのフィッティング(AANetによる)を組み合わせたパイプラインを提案し、トランスフォーマー表現内におけるシンプレックス構造を持つ可能性のある部分空間を発見する。
- 著者らはまず、信念状態の幾何構造が既知であるマルチパーティの隠れマルコフモデルで訓練したトランスフォーマーでこの手法を検証し、その後Gemma-2-9Bに適用して、シンプレックス幾何の候補を持つ優先クラスターを13個(K≥3)見つける。
- 本物の信念状態の符号化と、見かけ上の「タイル状(tiling)」アーティファクトとを切り分けるために、弁別テストとしてバリセントリック予測(barycentric prediction)を用い、少なくとも1つの分割を通過する実クラスターを5個見出し、ヌルクラスターはどれも通過しないことを確認する。
- 同定されたクラスターのうち(768_596)は、最高の因果スティアリングスコアを達成し、受動的予測と能動的介入が一致する唯一のクラスターである。もっとも、著者らは結果を予備的なものとして位置付け、より構造化された確認プロトコルを求めている。



