トランスフォーマ注意のための位置非依存プレ・プロジェクション:Q/K/Vの前での非線形特徴構築とコンテンツスキップ

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文はトランスフォーマ注意に対する2つの改良を提案する:Q/K/V計算の前に行う、位置に依存しない非線形の事前プロジェクションMLPと、役に立つ場合に注意機構を迂回できるコンテンツ・スキップ経路。
  • 事前プロジェクションは層正規化の後、位置エンコーディングの前に適用される。これにより、位置情報をあまり早い段階で注入せずに、より豊かな特徴量の構築を狙う。
  • Pythia-160Mおよび410Mで凍結プローブを用いた実験では、2つを組み合わせた方法が最も大きな改善を示す。160MスケールでLAMBADA精度が+40.6%、パープレキシティが-39%となった。
  • 学習されたスキップ接続の挙動から、トランスフォーマの後段ほど位置に敏感な注意を避けつつコンテンツ情報を活かすための“バイパス”への依存が大きいことが示唆される。これは、より深い層が位置に配慮した注意を通らないコンテンツ情報の恩恵を受けることを意味する。
  • 著者らは、これらの変更がK/Vキャッシュのオーバーヘッドを追加しないと報告しており、推論効率の維持に役立つ可能性がある。

Abstract

本稿では、トランスフォーマーの注意(attention)ブロックに対する、相補的な2つの改良を提案する。第一に、層正規化(layer norm)とQ/K/V射影の間に非線形の事前射影MLPを挿入し、いかなる位置エンコーディングが適用される前に、位置に依存しない方法でより豊かな特徴を構築する。第二に、コンテンツ・スキップ接続により、事前射影の特徴を注意機構の周りに迂回させることで、有益な場合には位置を意識した注意を通さずにコンテンツ情報が迂回できるようにする。Pythia-160Mおよび410Mに対する凍結プローブ実験では、2つを組み合わせたアプローチが、全手法の中で最も強い結果を達成する。すなわち、160MスケールでLAMBADA精度が+40.6%、パープレキシティが-39%である。学習されたスキップ接続の重みは、モデルサイズをまたいで一貫したパターンを示している。すなわち、後半のトランスフォーマー層ほど、より強くコンテンツの迂回を有効化し、初期の層よりも強い。これは、より深い層では、位置を意識した注意を通らないコンテンツ情報の恩恵が大きいことを示唆する。すべての改良はK/Vキャッシュのオーバーヘッドを追加しない。