Softmax Attentionにおける不変量について

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「エネルギー場」(行中心化された注意ロジット)を定義し、ソフトマックス注意の内部に存在する構造的不変量が、異なるモデルや入力でもどのように保たれるかを調べます。
  • 著者らは、ソフトマックスの代数構造から導かれるメカニズム・レベルの不変量として、各行のゼロ和制約、ヘッド次元に結びつくランク上界、そしてそれに伴うスペクトル的特徴を示します。
  • 注意メカニズム自体に直接は課されない一方で、テストした複数の自己回帰型言語モデル系列において一貫して現れるモデル・レベルの規則性も発見されています。
  • エネルギー場の分散がキー位置のいくつかに集中せずに非局在化することが示され、その要因としてキー行列の「キ―・インコヒーレンス」と呼ばれる性質が挙げられます。
  • これらの結果は、複数のコンテキスト長と複数の入力テキストで検証されており、特定の事例に依存しない頑健性が示されています。



要旨: Softmax による attention は、すべてのクエリ--キーの相互作用を確率分布へと写像するが、その背後にある構造はほとんど未解明のままである。私たちは
\emph{エネルギー場}、行を中心化した attention ロジットを定義し、それがモデル、アーキテクチャ、入力にまたがって不変な性質を示すことを明らかにする。




不変性は 2 つのクラスとして現れる。\emph{メカニズム・レベル}の不変性は、softmax attention の代数的構造から導かれる。それには、行ごとのゼロ和制約、ヘッド次元によって決まるランクの上界、そしてそれらから従うスペクトル的な特徴が含まれる。\emph{モデル・レベル}の規則性はメカニズムによっては要求されないが、私たちがテストしたあらゆる自己回帰型言語モデルにおいて成立しており、複数のアーキテクチャ系統にまたがっている。エネルギー場は、いくつかの位置に集中することなく、キー位置全体へその分散を分配する。この非局在化は、私たちが
\emph{key incoherence(キーの非整合性)}と呼ぶキー行列の性質に由来する。




これらの不変性には実用上の帰結がある。ランクの上界により、エネルギー場は低次元の部分空間に制限される。キーの非整合性は、ヘッドごとの学習モニタとして働く。すべての結果は、複数のコンテキスト長と入力テキストに対して検証されている。