Hプローブ:言語モデルの潜在表現から階層構造を抽出する

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、言語モデルの潜在表現から深さや要素間距離(ペア距離)といった階層情報を抽出するための線形プローブ群「H-probes」を提案しています。
  • 合成の木探索(ツリー・トラバーサル)課題で、H-probesが課題達成に必要な階層構造を含む部分空間を確実に特定できることが示されています。
  • 追加のアブレーション実験により、階層を含む部分空間は低次元であり、高いタスク性能に対して因果的に重要で、さらに同一領域だけでなく領域外でも一定の一般化が見られると報告されています。
  • 数学的な推論トレースなどの現実の階層的文脈でも、強さは弱いものの同様の階層構造が観測されています。
  • 全体として、階層は表面的な文法や概念だけでなく、より深い抽象化レベル—場合によっては推論プロセスそのものの側面—でもモデルにより表現されていることを示唆しています。

Abstract

階層を表現しナビゲートすることは、推論の基本的な原始的機能である。大規模言語モデルは、階層的推論を必要とする多様なタスクにおいて高い能力を示してきたが、そのような思考に必要な潜在構成をモデルが幾何学的にどのように表現しているのかについての分析は限られている。そこで本研究では、潜在表現から階層構造、具体的には深さとペアごとの距離を抽出する線形プローブの集合である extit{H-probes} を開発する。合成的な木探索(ツリー探索)タスクにおいて、H-probes はタスクを完了するために必要な階層構造を含む部分空間を頑健に見出す。さらに、包括的なアブレーション(寄与検証)実験により、階層を含むこれらの部分空間は低次元であり、高いタスク性能に対して因果的に重要で、ドメイン内およびドメイン外の双方で汎化することを示す。加えて、数学的推論のトレースのような現実世界の階層的状況においても、同様の(ただし弱い)階層構造が見出される。これらの結果は、モデルが階層を構文や概念のレベルだけでなく、推論プロセス自体を含む、より深い抽象化のレベルにおいても表現していることを示している。