言語モデルにおける共有された構文メカニズムの微細な分析
arXiv cs.CL / 2026/4/27
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、言語学で研究されている構文間の原理に対して、言語モデルがどの程度共有された神経メカニズムを用いているかを検証します。
- 活性パッチングによる因果的解釈可能性を用いて、フィラー・ギャップ依存関係とネガティブ極性項(NPI)のライセンスを調べた結果、フィラー・ギャップ依存関係には初期〜中間層に局所的で共有されたメカニズムが見られる一方、NPI処理には統一的な共有メカニズムは確認されません。
- 活性パッチングで特定されたメカニズムは分布外データに対しても一般化しますが、教師ありの分散アラインメント探索は狭い言語分布への過学習に影響されやすいと報告されています。
- 検証として、活性パッチングで同定された注意ヘッドやMLPブロックを操作すると、許容性判断ベンチマークでモデルの性能が向上することを示します。
- まとめると、どの内部コンポーネントが特定の構文現象に対応するか、またそれが学習分布を越えてどれだけ信頼できる形で転移するかについて、因果的な証拠を提供します。




