AI Navigate

出生時の中間で迷子になる現象:トランスフォーマー位置バイアスの厳密理論

arXiv cs.AI / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 「Lost in the Middle」現象は単なる訓練上のアーティファクトではなく、残差接続を備えた因果デコーダの本質的な性質であり、初期化時からU字型の取り出し性能として現れる。
  • 著者らは多層因果アテンションをチェザーロ行列の反復べき乗としてモデル化し、連続極限での厳密な閉形式の影響密度を導出し、初期の先頭部テールと末尾の近接デルタをマスキングと残差の影響により同定する。
  • これらの端点の間には階乗的死域が存在し、オーダーは 1/(H-1)!、H がネットワークの深さ。中間文脈の取り出しと訓練は構造的に難しく、この領域の幅は深さ H が決定する。
  • 未訓練の Qwen2 および GPT-2 アーキテクチャは Step 0 でこのU字形を示すことを実験的に検証し、RoPE の有無にかかわらず現象が持続する。
  • 初期化済みと事前学習済みのネットワークを比較すると、標準的な訓練はこのトポロジカルな谷を克服できず、標準的な事前学習目的の下でU字形がアーキテクチャのベースラインとして持続する。
要旨:大規模言語モデル(LLMs)における“Lost in the Middle”現象――文脈の最初と最後からはうまく取り出せる一方で中間で失敗するU字型の性能曲線――は、ソフトマックスの学習アーティファクトや RoPE のような位置エンコーディングの距離減衰に起因すると広く考えられてきた。本論文の主張は1つだけである:U字形は訓練や位置エンコーディングが全く作用する前の初期化時点ですでに存在する。これは残差接続を備えた因果デコーダの本質的な幾何学的性質である。私たちは多層因果アテンションをチェザーロ行列の反復べき乗としてモデル化し、連続極限での厳密な閉形式の影響密度を導出する。因果マスキングは開始部での勾配の影響を対数的に発散させる(先頭部テール)、一方残差接続は最終トークンにおいて独立した O(1) のアンカーを生み出す(Recency Delta)。これらの端点の間には、深さを H とする階乗的死域が存在し、中間文脈の取り出しと訓練は構造的に困難になる。経験的には、訓練なしの Qwen2 および GPT-2 アーキテクチャが Step 0 でこの U 字形を示し、RoPE の有無にかかわらず現象は同一であることが示される。初期化済みと事前訓練済みのネットワークを比較すると、標準的な訓練はこのトポロジカルな谷を克服できず、標準的な事前学習目的の下で U 字形がアーキテクチャのベースラインとして持続することを確認する。 このバイアスは克服不能であると主張するわけではなく、RoPE の改変などの介入が無意味だとも言わない。我々はベースラインが何でどこから来るのかを明確に定義し、将来このバイアスを克服する取り組みを正確に標的化できるようにする。