Hプローブ:言語モデルの潜在表現から階層構造を抽出する
arXiv cs.CL / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、言語モデルの潜在表現から深さや要素間距離(ペア距離)といった階層情報を抽出するための線形プローブ群「H-probes」を提案しています。
- 合成の木探索(ツリー・トラバーサル)課題で、H-probesが課題達成に必要な階層構造を含む部分空間を確実に特定できることが示されています。
- 追加のアブレーション実験により、階層を含む部分空間は低次元であり、高いタスク性能に対して因果的に重要で、さらに同一領域だけでなく領域外でも一定の一般化が見られると報告されています。
- 数学的な推論トレースなどの現実の階層的文脈でも、強さは弱いものの同様の階層構造が観測されています。
- 全体として、階層は表面的な文法や概念だけでなく、より深い抽象化レベル—場合によっては推論プロセスそのものの側面—でもモデルにより表現されていることを示唆しています。
