トランスフォーマ注意のための位置非依存プレ・プロジェクション：Q/K/Vの前での非線形特徴構築とコンテンツスキップ

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はトランスフォーマ注意に対する2つの改良を提案する：Q/K/V計算の前に行う、位置に依存しない非線形の事前プロジェクションMLPと、役に立つ場合に注意機構を迂回できるコンテンツ・スキップ経路。
事前プロジェクションは層正規化の後、位置エンコーディングの前に適用される。これにより、位置情報をあまり早い段階で注入せずに、より豊かな特徴量の構築を狙う。
Pythia-160Mおよび410Mで凍結プローブを用いた実験では、2つを組み合わせた方法が最も大きな改善を示す。160MスケールでLAMBADA精度が+40.6%、パープレキシティが-39%となった。
学習されたスキップ接続の挙動から、トランスフォーマの後段ほど位置に敏感な注意を避けつつコンテンツ情報を活かすための“バイパス”への依存が大きいことが示唆される。これは、より深い層が位置に配慮した注意を通らないコンテンツ情報の恩恵を受けることを意味する。
著者らは、これらの変更がK/Vキャッシュのオーバーヘッドを追加しないと報告しており、推論効率の維持に役立つ可能性がある。

Abstract

本稿では、トランスフォーマーの注意（attention）ブロックに対する、相補的な2つの改良を提案する。第一に、層正規化（layer norm）とQ/K/V射影の間に非線形の事前射影MLPを挿入し、いかなる位置エンコーディングが適用される前に、位置に依存しない方法でより豊かな特徴を構築する。第二に、コンテンツ・スキップ接続により、事前射影の特徴を注意機構の周りに迂回させることで、有益な場合には位置を意識した注意を通さずにコンテンツ情報が迂回できるようにする。Pythia-160Mおよび410Mに対する凍結プローブ実験では、2つを組み合わせたアプローチが、全手法の中で最も強い結果を達成する。すなわち、160MスケールでLAMBADA精度が+40.6%、パープレキシティが-39%である。学習されたスキップ接続の重みは、モデルサイズをまたいで一貫したパターンを示している。すなわち、後半のトランスフォーマー層ほど、より強くコンテンツの迂回を有効化し、初期の層よりも強い。これは、より深い層では、位置を意識した注意を通らないコンテンツ情報の恩恵が大きいことを示唆する。すべての改良はK/Vキャッシュのオーバーヘッドを追加しない。

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

日経XTECH

トランスフォーマ注意のための位置非依存プレ・プロジェクション：Q/K/Vの前での非線形特徴構築とコンテンツスキップ

要点

Abstract

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義 ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

「Pixel 10a」の性能は前機種とほぼ同じ、日本限定色の価値は評価されるか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演