トランスフォーマ注意のための位置非依存プレ・プロジェクション:Q/K/Vの前での非線形特徴構築とコンテンツスキップ
arXiv cs.CL / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文はトランスフォーマ注意に対する2つの改良を提案する:Q/K/V計算の前に行う、位置に依存しない非線形の事前プロジェクションMLPと、役に立つ場合に注意機構を迂回できるコンテンツ・スキップ経路。
- 事前プロジェクションは層正規化の後、位置エンコーディングの前に適用される。これにより、位置情報をあまり早い段階で注入せずに、より豊かな特徴量の構築を狙う。
- Pythia-160Mおよび410Mで凍結プローブを用いた実験では、2つを組み合わせた方法が最も大きな改善を示す。160MスケールでLAMBADA精度が+40.6%、パープレキシティが-39%となった。
- 学習されたスキップ接続の挙動から、トランスフォーマの後段ほど位置に敏感な注意を避けつつコンテンツ情報を活かすための“バイパス”への依存が大きいことが示唆される。これは、より深い層が位置に配慮した注意を通らないコンテンツ情報の恩恵を受けることを意味する。
- 著者らは、これらの変更がK/Vキャッシュのオーバーヘッドを追加しないと報告しており、推論効率の維持に役立つ可能性がある。




