言語モデルにおける階層的概念の線形表現

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、言語モデルが概念間の階層関係（例：日本 ⊂ 東アジア ⊂ アジア）を内部的に符号化しているか、またその符号化が表現にどのように現れるかを調べる。
「Linear Relational Concepts」を拡張し、階層の深さと意味領域ごとに線形変換を学習してから、その変換を比較することで、階層に結びついた差異を特徴づける。
実験の結果、特定の領域内では、複数トークンから成る実体や層をまたいだ場合でも、階層関係はモデルの表現から線形に復元できることが示される。
分析では、階層情報が比較的低次元の部分空間に存在しており、その部分空間はしばしば領域固有である一方で、学習された階層表現はそうした領域固有の部分空間間でも高い類似性を示すことがわかる。
全体として著者らは、検証したモデルにおける概念階層が、高い解釈可能性をもつ線形表現によって捉えられていると主張しており、領域内の汎化と領域をまたいだ転移評価によって結果が裏づけられている。

要旨: 本研究では、階層関係（例：Japan $Eastern Asia$ Asia）のようなものが言語モデルの内部表現に、どのように、またどの程度まで符号化されているのかを調査する。線形関係概念（Linear Relational Concepts）に基づき、各階層の深さおよび意味領域ごとに固有の線形変換を学習し、これらの変換を比較することで、階層関係に関連する表現上の差異を特徴づける。LMにおける階層の表象幾何学に関する先行研究を超えて、本解析では、複数トークンからなる実体と層をまたいだ表現を扱う。複数の領域にわたってこのような変換を学習し、未見データに対する領域内での汎化と、領域をまたいだ転移を評価する。実験の結果、同一領域の中では、階層関係がモデルの表現から線形に復元できることが示された。ついで、階層情報が表現空間にどのように符号化されるかを解析する。階層情報は比較的低次元の部分空間に符号化されており、この部分空間は概ね領域特有であることを見出した。主要な結果は、階層の表現が、これらの領域特有の部分空間間で非常に類似しているという点である。全体として、本研究では、実験で検討したすべてのモデルが、非常に解釈可能な線形表現の形で概念階層を符号化していることが分かった。