要旨: ニューラル言語モデルは語の列を処理しますが、その内部で行われる数学的操作は、語がどの順序で現れるかには鈍感です。位置埋め込み(positional encodings)は、この問題を解決するために付け加えられる構成要素です。重要であるにもかかわらず、位置埋め込みは、何をするべきかについての数学的理論なしに、主として試行錯誤によって設計されてきました。
本論文は、そのような理論を構築します。4つの結果が確立されます。第一に、位置信号のない任意のTransformerは、語順に敏感な任意の課題を解くことができません(必要条件定理)。第二に、訓練は、緩やかで検証可能な条件の下で、あらゆる大域的最小解において、異なる列位置に対して異なるベクトル表現を割り当てます(位置分離定理)。第三に、情報理想的(information-optimal)な符号化に対する最良の達成可能な近似は、位置分布間のヘリンスン距離(Hellinger distance)に対して古典的多次元尺度構成法(MDS)を適用することで構成されます;符号化の品質は単一の数値であるストレス(stress)によって測定されます(命題5、アルゴリズム1)。第四に、最適な符号化は有効階数 r = rank(B) <= n-1 をもち、nd の代わりに r(n+d) 個のパラメータで表現できます(最小パラメータ化の結果)。
付録Aでは、マスク付き言語モデリング(MLM)の損失、系列分類の損失、ならびに位置の充足性(positional sufficiency)条件を満たす一般の損失について、ニューラル接線カーネル(NTK)領域における単調性予想(Monotonicity Conjecture)の証明を、5つの補題を通じて展開します。SST-2およびIMDBでBERT-baseに対して行った実験は理論的予測を確認し、さらに、Attention with Linear Biases(ALiBi)が正弦波状の符号化およびRotary Position Embedding(RoPE)よりもはるかに低いストレスを達成することを示します。これは、近似的シフト同変性に基づくMDS符号化のランク1解釈と整合的です。
トランスフォーマにおける位置埋め込みの幾何学について
arXiv cs.LG / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、位置埋め込みは試行錯誤的な設計ではなく、原理に基づく数学的理論を必要とすると主張し、そのためのトランスフォーマ向けの枠組みを構築する。
- 位置信号を一切持たないトランスフォーマでは、語順に依存するタスクの解決が不可能であることを(必要性定理として)証明する。
- 微弱で検証可能な条件のもとで、訓練によって、あらゆるグローバル最小解において、異なる系列位置に対して異なるベクトル表現が得られることを示す(位置分離定理)。
- 位置分布間のヘリングス距離に対して、古典的な多次元尺度構成法(MDS)により埋め込みを構成することで、情報理論的に最適なエンコーディング目的関数を定式化する。品質の指標は「stress(ストレス)」の1つに集約される。
- 最適なエンコーディングの有効階数は r ≤ n−1 であり、パラメータ効率良く表現できることを示す。実験では、ALiBi は正弦的な位置埋め込みや RoPE よりもはるかに低い stress を達成し、階数1の解釈に整合的であることが示唆される。



