Switch Attention：動的かつきめ細かなハイブリッドTransformerへのアプローチ

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、各層において各トークンを「全体（グローバル）注意」と「スライディングウィンドウ注意」の間で動的にルーティングするハイブリッドTransformerであるSwitch Attention（SwiAttn）を提案し、長文コンテキストにおけるボトルネックを解消します。
先行するハイブリッド手法が静的なヒューリスティックによる交互パターンに依存しているのに対し、SwiAttnはシナリオに応じて計算をより効率的に配分するために、トークン単位のきめ細かなルーティングを用います。
精度と計算量削減のバランスを取りつつ、効率性を優先するようにモデルを促す適応的正則化目的が提案されています。
著者らは、全体注意アーキテクチャをハイブリッド形に転送するために継続的事前学習を用い、4Kおよび32Kのコンテキスト長の両方で、23のベンチマークデータセットに対して評価し、有効性の向上を報告しています。

Abstract

注意メカニズムは、現代のトランスフォーマーアーキテクチャにおける中核となる要素です。しかし、標準的なフル注意はシーケンス長に対して計算量が二次的に増加し、長い文脈での言語モデリングにおける主要なボトルネックとなっています。スライディングウィンドウ注意は、受容野を狭める代わりに効率を高めることで文脈長を制限します。既存の取り組みでは、ハイブリッドモデルを構築することで両者の利点を得ようとすることが試みられていますが、多くの場合、静的でヒューリスティックに設計された交互パターンに頼るため、さまざまな状況において計算を効率よく配分することが制限されます。本論文では、Switch Attention（SwiAttn）を提案します。これは、フル注意とスライディングウィンドウ注意の間で動的かつきめ細かなルーティングを可能にする、新しいハイブリッドトランスフォーマーです。各トランスフォーマーレイヤにおいて各トークンについて、SwiAttnは、グローバルな情報集約のためのフル注意ブランチ、あるいは効率的な局所パターン照合のためのスライディングウィンドウブランチのいずれかへ、計算を動的にルーティングします。さらに、効率性へとモデルを導くための適応的な正則化目的関数を設計します。加えて、モデルを最適化するために継続的事前学習を採用し、フル注意のアーキテクチャをハイブリッドなものへ転移します。提案手法の有効性を示すため、通常（4K）および長文（32K）コンテキスト長の両方にわたって、23のベンチマークデータセットで大規模な実験を行います。