言語モデルは意味関係を符号化するのか？プロービングとスパース特徴分析

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模言語モデルが同義、反義、上位概念（ハイパーニミー）、下位概念（ハイポニミー）といった構造化された意味関係を、どの程度そしてどこに符号化しているのかを検証する。対象はスケールが増大する複数のモデル（Pythia-70M、GPT-2、Llama 3.1 8B）である。
著者らは、線形プロービングに加えて、機構的解釈（メカニスティック・インタープリタビリティ）手法であるスパースオートエンコーダとアクティベーション・パッチングを用い、関係を表現する層・経路の位置や、表現に寄与する具体的な特徴を地図化する。
結果は、階層的関係における方向性の非対称性を示す。すなわち、上位概念（ハイパーニミー）は冗長に表現されており抑制しにくい一方で、下位概念（ハイポニミー）はよりコンパクトな特徴に依存しており、アブレーション（除去）の影響を受けやすい。
関係のシグナルは拡散的だが安定していると特徴づけられ、中間層でピークを迎えることが多く、注意機構よりも残差／MLP経路においてより強く現れる。
プローブに基づく因果効果はモデルの能力（容量）によって変動する。SAE（スパースオートエンコーダ）に導かれたパッチングはLlama 3.1では信頼性のあるシフトを生むが、小型モデルでは効果が弱い、あるいは不安定になりやすい。反義は因果的に引き出しやすく、同義は最も引き出しにくい。

要旨: 大規模言語モデル（LLM）が構造化された意味を捉えているかどうかを理解するには、概念間の関係をそれらがどのように表現しているかを調べる必要がある。本研究では、規模を段階的に大きくした3つのモデル、Pythia-70M、GPT-2、Llama 3.1 8Bを対象とし、4つの意味関係――同義（synonymy）、反義（antonymy）、上位概念（hypernymy）、下位概念（hyponymy）――に焦点を当てる。線形プロービングと、疎オートエンコーダ（SAE）やアクティベーション・パッチングを含むメカニスティック解釈可能性手法を組み合わせることで、これらの関係がどこに符号化されているのか、そして表現に寄与する特定の特徴は何かを特定する。我々の結果は、階層的関係における方向性の非対称性を明らかにする。すなわち、上位概念は冗長に符号化され抑制に抵抗する一方で、下位概念はコンパクトな特徴に依存しており、アブレーションによってより容易に破壊される。より広く言えば、関係のシグナルは拡散しているが、安定したプロファイルを示す。すなわち、それらは中間層でピークを迎え、注意（attention）よりも、残差後（post-residual）/MLP経路でより強い。困難さはモデル間で一貫しており（反義が最も容易、同義が最も難しい）、プローブ・レベルの因果性は容量に依存する。Llama 3.1では、SAE誘導のパッチングによりこれらのシグナルが確実にシフトするのに対し、小型モデルではシフトが弱いか不安定である。我々の結果は、LLM内部で意味関係がどこで、どのように、そしてどの程度確実に表現されているのかを明確にするとともに、疎な特徴をプローブ・レベルの因果的証拠に結びつけるための再現可能な枠組みを提供する。