因果ドローブリッジ：トランスフォーマーLMにおける統語アイランドの勾配ブロッキングを特徴づける

arXiv cs.CL / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、Transformer言語モデルに対する因果的介入（causal interventions）を用いて、統語的「アイランド」が抽出をどのように妨げるのかを調べ、語彙内容によって変化する人間の許容性判断をモデルが再現することを示す。
結合（coordination）アイランドからの抽出では、標準的なwh依存関係（wh-dependencies）と同じフィラー・ギャップ機構が使われているが、それらの機構は抽出対象によって異なる程度に選択的に抑制されることが分かる。
Transformerの各ブロック、注意（attention）モジュール、MLPにまたがって機能的に関連する部分空間を切り出すことで、著者らは表象構造と統語的制約を結びつける機構的な証拠を提示する。
大規模な無関係テキスト・コーパスを因果的部分空間へ射影することで、「and（そして）」という接続詞が、抽出可能な構文と抽出不可能な構文で異なる形で符号化されている、という新しい仮説（関係的用法と、純粋に接続詞的な用法の違い）を導く。
全体として、本研究は、機構的解釈（mechanistic interpretability）の手法が、Transformer言語モデルにおける表象と処理に関する検証可能な言語学的仮説を生み出し得ることを示している。