LaplacianFormer:ラプラシアン核で線形アテンションを再考

arXiv cs.CV / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、ソフトマックスの二次計算量がボトルネックとなる高解像度の視覚タスク向けに、ソフトマックス・アテンションをラプラシアン核で置き換えるTransformer派生モデル「LaplacianFormer」を提案します。
  • 先行するガウス核ベースの線形アテンションは理論的な裏付けが弱く、中距離のトークン間相互作用を過度に抑制してしまう可能性があると指摘しています。
  • 低ランク近似に伴う表現力の低下を抑えるため、微細なトークン情報を保持することが保証された(provably injectiveな)特徴マップを導入します。
  • 計算効率は、カーネル行列のNyström近似と、Newton–Schulz反復による解法で実現し、行列の反転やSVDの高コスト計算を回避します。
  • フォワード/バックワードを高速化するためのCUDA実装と、ImageNetでの評価結果により、LaplacianFormerが表現力を高めつつ性能と効率のトレードオフを改善することを示しています。

要旨: softmax attention の二次計算量は、高解像度の視覚タスクに対して Transformer をスケールさせる上で大きな障害となっています。既存の線形 attention 系の手法では、複雑度を下げるために softmax をガウス型カーネルで置き換えることが多いものの、そのような近似には理論的な裏付けがなく、トークン間の中距離の相互作用を過度に抑制する傾向があります。本稿では、経験的観察と理論解析に基づき、softmax の原理的な代替としてラプラシアン・カーネルを用いる Transformer 系の手法 LaplacianFormer を提案します。低ランク近似に伴う表現力の低下に対処するために、微細なトークン情報を保持する、証明可能な注入(injective)特徴マップを導入します。効率的な計算のために、カーネル行列の Nystr"om 近似を採用し、その結果得られる連立方程式を Newton--Schulz 法の反復で解くことで、高価な行列反転や SVD を回避します。さらに、カーネルとソルバの両方に対して独自の CUDA 実装を開発し、エッジ展開に適した高スループットな順伝播および逆伝播を可能にします。ImageNet における実験では、LaplacianFormer が、attention の表現力を向上させつつ、強力な性能と効率のトレードオフを達成することを示します。