階数(Rank)、ヘッド・チャネルの非同定性、対称性の破れ:トランスフォーマにおける表現崩壊の精密解析

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Dong et al.(2021)が示した「自己注意のみでスキップ接続やFFN/MLPを持たないTransformerでは、表現の階数が急速に崩壊し、トークン表現が単一の方向へ収束する」という結果を再検討し、従来の説明がアーキテクチャ理解としては不十分だと論じています。
  • 層正規化(LN)が「アフィン階数」を厳密に保存する(affine-rank-neutral)ことを示し、LNが“役に立たない”というよくある主張は不正確である一方、LNが直接崩壊を引き起こすわけではない点を明確化します。
  • 実際のTransformer(例:BERT-base)では、残差接続が測度論的な意味で一般に階数崩壊を妨げることを明らかにし、さらにMLPの固有の役割を、元のトークン埋め込みの線形包の外側にある特徴方向を生成することだと特徴づけます。
  • 階数崩壊とは別の現象として、ヘッド・チャネルの非同定性(head-channel non-identifiability)を特定します。すなわち、マルチヘッド出力が出力射影で合算・混合された後は、個々のヘッドの寄与を一意に復元できず、1層あたりのヘッド帰属には大きな曖昧さが残るというものです。
  • 低オーバーヘッドの構成的な部分的対策として、位置グロート出力射影(PG-OP)を提案し、文献にある複数の崩壊現象を、Transformerの順伝播における異なる対称性に対応づけた「対称性の破れ」枠組みの下で統一的に説明します。

Abstract

A widely cited result by Dong et al. (2021) showed that Transformers built from self-attention alone, without skip connections or feed-forward layers, suffer from rapid rank collapse: all token representations converge to a single direction. The proposed remedy was the MLP. We show that this picture, while correct in the regime studied by Dong, is incomplete in ways that matter for architectural understanding. Three results are established. First, layer normalisation is precisely affine-rank-neutral: it preserves the affine rank of the token representation set exactly. The widespread claim that LN "plays no role" is imprecise; the correct statement is sharper. Second, residual connections generically obstruct rank collapse in real Transformers such as BERT-base, in a measure-theoretic sense, without contribution from the MLP. The MLP's irreplaceable function is different: generating feature directions outside the linear span of the original token embeddings, which no stack of attention layers can produce. Third, a phenomenon distinct from rank collapse is identified: head-channel non-identifiability. After multi-head attention sums per-head outputs through the output projection, individual contributions cannot be canonically attributed to a specific head; n(H-1)d_k degrees of freedom per layer remain ambiguous when recovering a single head from the mixed signal. The MLP cannot remedy this because it acts on the post-summation signal. A constructive partial remedy is proposed: a position-gated output projection (PG-OP) at parameter overhead below 1.6% of the standard output projection. The four collapse phenomena identified in the literature -- rank collapse in depth, in width, head-channel non-identifiability, and entropy collapse -- are unified under a symmetry-breaking framework, each corresponding to a distinct symmetry of the Transformer's forward pass.