言語モデルにおける共有された構文メカニズムの微細な分析

arXiv cs.CL / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、言語学で研究されている構文間の原理に対して、言語モデルがどの程度共有された神経メカニズムを用いているかを検証します。
  • 活性パッチングによる因果的解釈可能性を用いて、フィラー・ギャップ依存関係とネガティブ極性項(NPI)のライセンスを調べた結果、フィラー・ギャップ依存関係には初期〜中間層に局所的で共有されたメカニズムが見られる一方、NPI処理には統一的な共有メカニズムは確認されません。
  • 活性パッチングで特定されたメカニズムは分布外データに対しても一般化しますが、教師ありの分散アラインメント探索は狭い言語分布への過学習に影響されやすいと報告されています。
  • 検証として、活性パッチングで同定された注意ヘッドやMLPブロックを操作すると、許容性判断ベンチマークでモデルの性能が向上することを示します。
  • まとめると、どの内部コンポーネントが特定の構文現象に対応するか、またそれが学習分布を越えてどれだけ信頼できる形で転移するかについて、因果的な証拠を提供します。

Abstract

言語モデルは高度な統語能力を示す一方で、それらの内部メカニズムが、言語学で研究されてきた構文間(クロスコンストラクション的)原理とどの程度整合しているのかは、いまだ十分に解明されていない。本研究では、因果的解釈可能性(causal interpretability)手法をきわめて細かな粒度で適用することで、モデルが異なる統語構文間で共有されたニューラルメカニズムを用いているかどうかを調査する。空所—ギャップ依存関係(filler-gap dependencies)と否定極性項(NPI: negative polarity item)のライセンシングに焦点を当て、特定のアテンションヘッドおよびMLPブロックの機能的役割を特定するためにアクティベーション・パッチング(activation patching)を用いる。結果として、空所—ギャップ依存関係については、初期から中期の層に位置する、非常に局所的で共有されたメカニズムが見出されるのに対し、NPI処理にはそのような統一的メカニズムは見られなかった。さらに、アクティベーション・パッチングによって同定されたこれらのメカニズムは、分布外データに対して一般化する一方で、教師ありの解釈可能性手法である分散アライメント探索(distributed alignment search)は、狭い言語分布への過適合(overfitting)に影響を受けやすいことが分かった。最後に、本研究の知見を検証するために、同定された構成要素を操作することで、受容性判断(acceptability judgment)のベンチマークにおけるモデル性能が向上することを示す。