位置エンコーディングなしのAttention sinkは不可避なのか? [D]

Reddit r/MachineLearning / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本記事では、自己注意またはクロス注意から位置エンコーディングを除くと、アテンションのヒートマップに「垂直のホットライン」が現れることが報告されており、クエリが類似したキー・トークン位置へと収束してしまうことを示唆している。
  • 著者は、位置エンコーディングなしの因果的自己注意でも同様の病理が起きることを観察しており、問題はクロス注意に限られたものではなく、構造的な可能性がある。
  • 位置エンコーディング(RoPEなど)を追加すると、より対角線のようなパターンになるため、PEがアテンションパターンの対称性を破るのに役立つことが示唆される。
  • 中心となる問いは、位置エンコーディングなしで、クエリに応じたトークン固有の注意を実現できるのか、また注意の崩壊(collapsing)を防ぐためにどのようなアーキテクチャ上の変更や学習上の工夫が必要なのか、という点にある。
  • 注意を分散させるための正則化を試しても、垂直ラインの失敗モードは解消されなかったため、根本原因のさらなる調査が動機づけられている。
Is Attention sink without Positional Encoding unavoidable? [D]

要約: 自己注意(Self-attention)またはクロス注意(Cross-attention)から位置エンコーディング(PE)を取り除いた瞬間、注意ヒートマップに縦のホットラインが見え始めます。PEなしで、クエリに条件付けされた注意(query-conditioned attention)をモデルに持たせる方法はありますか?

そこで、いくつかの種類のTransformerベースのモデルを(小さめで、いじれる範囲だけ)事前学習しようとしてきました。具体的には、エンコーダ-デコーダモデルと、クロス注意メモリのみのモデルです(FFNを基本的に取り除き、クロスアテンションされたベクトルをメモリバンクとして使うだけ)。しかし、クロス注意を学習しようとすると毎回、添付した画像のように縦のラインが見えます。つまり、すべてのクエリベクトルが同じキー(key)トークンに注目していることを意味しているのではないかと推測しています。これは、クロス注意の間はRoPEや他のPEを使っていないにもかかわらず起きています。PEを追加すると、いくつかの対角線も見え始めますが、クエリとキーは異なるデータの表現なので、クロス注意の場面でPEを追加する必要があるとは思っていません。

また、PEを取り除くと、単純な因果自己注意(Causal Self-attention)でも同様にこれが現れます。

私の質問は、クエリトークンに基づいてキー・トークンへ動的に注意を向けるように、モデルをどう強制すればよいのか、ということです。

すでに正則化(レギュラライゼーション)も試しました。注意がより広く分散されるようにするもので、実際に注意はより広がりますが、それでも縦のラインのままで、対角線や他のパターンは出てきません。

submitted by /u/PreetamSing
[link] [comments]