概要:トランスフォーマーは自然言語処理における経験的成功の多くを自己注意ブロックに負っている。最近の視点では、注意ブロックを相互作用する粒子系として解釈し、それらの平均場極限が、Wasserstein-2型の距離を備えた確率密度空間上の相互作用エネルギー汎関数の勾配流に対応する。私たちは、密度空間上の慣性Nesterov型ダイナミクスから派生した加速注意ブロックを導入することでこの見方を拡張する。提案するアーキテクチャでは、トークンは空間的(特徴)および速度変数の双対を携える。時間離散化と加速密度ダイナミクスの近似は、ハミルトニアン運動量注意ブロックを生み出し、これらが提案された加速注意アーキテクチャを構成する。特に線形自己注意については、注意ブロックがポテンシャルエネルギーのStein変分勾配流を、ビリニアカーネルを用いて近似することを示す。この設定において、楕円型に等高線を持つ確率分布が加速注意ブロックによって保存されることを証明する。実装可能な粒子法ベースのアルゴリズムを提示し、提案された加速注意ブロックが従来の注意ブロックよりも収束が速い一方で、オラクル呼び出し回数を保持することを示す。
SympFormer: 密度多様体上の慣性Nesterov型ダイナミクスによる加速注意ブロック
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- SympFormer は、密度多様体上の慣性Nesterov型ダイナミクスに由来する加速された注意ブロックを導入し、トークンは空間変数と速度変数の両方を保持してハミルトン運動量注意ブロックを形成します。
- 線形自己注意のためのブロックは、双線形カーネルを用いた Stein 変分勾配流を近似し、楕円分布を保ちます。
- 本研究は実装可能な粒子ベースのアルゴリズムを提供し、従来の注意よりも収束が速いことを、同じオラクル呼び出し回数を維持したまま示します。
- 注意を Wasserstein-2 型の密度空間上の粒子系として扱うことにより、物理に触発されたダイナミクスをトランスフォーマーへ結びつけ、将来のモデルの効率性と安定性の改善を示唆します。