単一の注意（アテンション）層内におけるグラディエントブースティング

arXiv cs.LG / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「グラディエント・ブーストされた注意（gradient-boosted attention）」を提案し、1つのトランスフォーマの注意層の中に2回目の注意パスを追加することで、最初のパスの予測誤差に注意を向け、学習されたゲート付きの補正を適用する。
二乗の再構成目的の下で、著者らはこの手法が Friedman のグラディエントブースティング・マシンに対応することを示し、各注意パスをベース学習器として扱い、次元ごとのゲートを縮小（shrinkage）のパラメータとして用いる。
反復更新のダイナミクス（Hopfield 型および局所的に収縮する挙動）を解析し、反復のレジームによって、ある種のクエリ情報が消去されたり、固定点へ崩壊したりし得ることを示す。
10Mトークンの WikiText-103 サブセットでの実験では、通常の注意（72.2）に対してテストパープレキシティが改善（67.9）し、改善の大半は2回の補正ラウンドで達成される。
著者らは、補正パスに対して別個の射影（projection）パラメータを用いることで、共有射影型（Twicing Attention など）が取りこぼし得る残差情報を回復できると主張する。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH