要旨: 階層構造の理解を要求するタスクで学習すると、トランスフォーマはこの階層を明確に異なる形で表現することがわかっている。すなわち、残差ストリームの幾何学的な性質の中で表現される場合と、最後に入力されたものが先に出力される(last-in, first-out)順序を維持するスタックのような注意パターンの中で表現される場合である。しかし、これらの表現が因果的に使用されているのか、それとも単にデコーダブル(復号可能)なだけなのかは依然として不明である。本研究では、階層的な真値が明示的である Dyck 言語(釣り合った括弧列の形式言語)で学習されたトランスフォーマにおいて、このギャップを調べる。残差ストリームと注意パターンをプロービングし、介入することで、深さ、距離、そしてスタック頂部(top-of-stack)の信号はいずれもデコーダブルである一方で、それらの因果的役割は異なることを見出す。具体的には、真のスタック頂部位置への注意をマスクすると、長距離精度が急激に低下するのに対し、低次元の残差ストリーム部分空間をアブレーションしても影響は比較的小さい。これらの結果は、テンプレート化された自然言語設定にも拡張されており、関連する階層変数が既知であるような制御された状況においても、デコーダビリティだけでは因果的使用を意味しないことを示唆している。
括弧列トランスフォーマーにおけるデコード可能性と因果的使用の切り離し
arXiv cs.LG / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、括弧列(Dyck言語)に基づくタスクで学習したトランスフォーマーが階層構造を表す方法を調べ、観測される信号が単にデコード可能なだけなのか、それとも因果的に用いられているのかを比較します。
- 残差ストリームとアテンションパターンに対するプロービングと介入の結果、深さ、距離、トップ・オブ・スタック信号はいずれもデコード可能だが、因果的な役割は一様ではないことが示されます。
- 真のトップ・オブ・スタック位置に対応するアテンションをマスクすると、長距離精度が大きく低下し、特定のアテンション挙動が因果的に重要であることが示唆されます。
- 一方で、残差ストリームの低次元部分空間をアブレーションしても影響は比較的小さく、デコード可能な内部表現すべてが因果的に必要とは限らないことが示されます。
- これらの結果はテンプレート化された自然言語設定にも拡張され、内部変数の「デコード可能性」だけでは「因果的使用」を保証できないという主張を強めています。



