要旨: 注意機構の理論的基盤を理解することは、それらの複雑な非線形ダイナミクスのせいで依然として困難です。これにより、線形化された注意機構の学習ダイナミクスにおける基本的なトレードオフが明らかになります。データ依存のGram誘導カーネルと厳密に対応する線形化された注意機構を用いた、NTKフレームワークによる経験的および理論的分析は、線形化された注意が無限幅のNTK極限へ収束しないことを示します。収束には幅 m = Ω(κ^6) が必要で、これは自然画像データセットの実用的な幅を超える閾値です。この非収束は、訓練データの例への依存度を動的に変える能力、つまり影響力の可塑性によって特徴づけられます。注意はReLUネットワークより6〜9倍高い可塑性を示し、二重の意味を持ちます:データ依存のカーネルはタスク構造に合わせることで近似誤差を低減できますが、同じ感度は訓練データの敵対的操作に対する脆弱性を高めます。これらの知見は、注意の力と脆弱性が、カーネル領域からの逸脱という共通の起源を共有していることを示唆しています。
線形化された注意機構における影響の可塑性:非収束NTKダイナミクスの二重の含意
arXiv cs.LG / 2026/3/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、データ依存のグラム誘導カーネルと厳密に対応する線形化された注意機構を分析し、スペクトル増幅によりグラム行列の条件数が悪化するため、幅が大きくても無限幅NTK極限へ収束しないことを示す。収束には幅 m = Ω(κ^6) が必要である。
- 影響の可塑性の概念を導入し、注意機構は ReLU ネットワークより 6〜9倍高い可塑性を示すことを明らかにし、訓練例への依存性を動的に変えることができる。
- この可塑性には二重の含意を持つ。データ依存のカーネルはタスク構造と整合させることで近似誤差を低減できる一方で、訓練データの敵対的操作に対する感受性を高める。
- 結果は、注意機構の力と脆弱性がカーネル領域からの逸脱に起因することを示唆しており、注意ベースのモデルの設計と頑健性に重要な影響をもたらす。

