Switch Attention:動的かつきめ細かなハイブリッドTransformerへのアプローチ
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、各層において各トークンを「全体(グローバル)注意」と「スライディングウィンドウ注意」の間で動的にルーティングするハイブリッドTransformerであるSwitch Attention(SwiAttn)を提案し、長文コンテキストにおけるボトルネックを解消します。
- 先行するハイブリッド手法が静的なヒューリスティックによる交互パターンに依存しているのに対し、SwiAttnはシナリオに応じて計算をより効率的に配分するために、トークン単位のきめ細かなルーティングを用います。
- 精度と計算量削減のバランスを取りつつ、効率性を優先するようにモデルを促す適応的正則化目的が提案されています。
- 著者らは、全体注意アーキテクチャをハイブリッド形に転送するために継続的事前学習を用い、4Kおよび32Kのコンテキスト長の両方で、23のベンチマークデータセットに対して評価し、有効性の向上を報告しています。




