Abstract
シフトウィンドウ注意(Swin Transformer)とマンハッタン距離に基づく空間的減衰(Retentive Networks: RMT)を、入力依存のゲーティングで拡張したハイブリッド視覚トランスフォーマのファミリーであるGated-SwinRMTを提案します。自己注意は、各シフトウィンドウ内で幅方向と高さ方向の保持(retention)を連続した2回のパスとして分解されます。ヘッドごとの指数減衰マスクが、学習された位置バイアスなしで2次元の局所性の事前分布を与えます。
2つのバリアントを提案します。\textbf{Gated-SwinRMT-SWAT}は、softmaxをsigmoid活性で置き換え、乗算による事後活性の空間減衰を用いてバランスの取れたALiBiの傾き(slope)を実装し、値の射影をSwiGLUでゲートします。正規化された出力は、情報を持たない注意スコアを暗黙に抑制します。\textbf{Gated-SwinRMT-Retention}は、softmax正規化された保持を、加法的な対数空間減衰のバイアスとともに保持し、明示的なG1 sigmoidゲートを組み込みます。このG1ゲートは、ブロック入力から射影され、局所コンテキスト強化(LCE)後に、出力射影~W_Oの前で適用されます。これにより、低ランクのW_V \,\cdot\, W_Oボトルネックを緩和し、注目された出力の入力依存的な抑制を可能にします。
同一の学習プロトコルのもとで、Mini-ImageNet(224{\times}224、100クラス)とCIFAR-10(32{\times}32、10クラス)に対して両方のバリアントを評価します。資源制限のため、単一GPUを使用します。約{\approx}77--79Mパラメータにおいて、Gated-SwinRMT-SWATはMini-ImageNetでトップ1テスト精度80.22\%を達成し、Gated-SwinRMT-Retentionは78.20\%を達成します。これはRMTベースラインの73.74\%と比べて改善です。CIFAR-10では、小さな特徴マップのため適応的なウィンドウ化メカニズムが注意をグローバルな範囲へ崩壊させるため、精度向上の優位性は+6.48\,ppから+0.56\,ppへと圧縮されます。