単一の注意(アテンション)層内におけるグラディエントブースティング

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は「グラディエント・ブーストされた注意(gradient-boosted attention)」を提案し、1つのトランスフォーマの注意層の中に2回目の注意パスを追加することで、最初のパスの予測誤差に注意を向け、学習されたゲート付きの補正を適用する。
  • 二乗の再構成目的の下で、著者らはこの手法が Friedman のグラディエントブースティング・マシンに対応することを示し、各注意パスをベース学習器として扱い、次元ごとのゲートを縮小(shrinkage)のパラメータとして用いる。
  • 反復更新のダイナミクス(Hopfield 型および局所的に収縮する挙動)を解析し、反復のレジームによって、ある種のクエリ情報が消去されたり、固定点へ崩壊したりし得ることを示す。
  • 10Mトークンの WikiText-103 サブセットでの実験では、通常の注意(72.2)に対してテストパープレキシティが改善(67.9)し、改善の大半は2回の補正ラウンドで達成される。
  • 著者らは、補正パスに対して別個の射影(projection)パラメータを用いることで、共有射影型(Twicing Attention など)が取りこぼし得る残差情報を回復できると主張する。