大規模言語モデルにおける関係知識の想起を追跡する

arXiv cs.CL / 2026/4/23

📰 ニュースModels & Research

要点

  • 本論文は、大規模言語モデルが生成中に関係知識をどのように想起するかを調査し、線形プローブで関係分類を支える内部表現の特定を目的とする。
  • attention head と MLP の寄与から得られる複数の潜在表現を比較した結果、残差ストリームへの「per-head attention contributions」が、線形関係分類にとりわけ強い特徴になることを示す。
  • 学習済みプローブの特徴帰属分析により、プローブ精度が関係の具体性、エンティティの結びつき、そしてプローブが依拠する信号が attention head にどれほど分散しているかと相関することが明らかになる。
  • さらに、プローブ予測のトークン単位の特徴帰属を用いることで、より詳細にプローブのふるまいを可視化できることを示す。
  • 全体として、関係抽出に対して線形に使いやすい内部信号と、関係タイプごとに線形分離性が異なる理由を明確化する。