Gated-SwinRMT:入力依存型ゲーティングにより、レテンティブなマンハッタン減衰でSwinのウィンドウ化注意を統合する

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Gated-SwinRMTは、Swinのシフト付きウィンドウ注意とRetentive Networksのマンハッタン距離に基づく空間減衰を組み合わせた提案型のハイブリッド・ビジョントランスフォーマ手法であり、局所性と選択的な出力抑制のために入力依存型ゲーティングを追加する。
  • 本論文では、各シフト付きウィンドウ内の注意を、幅方向と高さ方向のレテンション・パスに分解し、学習された位置バイアスを用いない2Dの局所性事前分布として、ヘッドごとの指数減衰マスクを用いる。
  • 2つのバリアントを導入する:Gated-SwinRMT-SWATはsoftmaxをsigmoidに置き換え、SwiGLUを用いて値投影をゲートする。一方、Gated-SwinRMT-Retentionは、softmax正規化されたレテンションに加え、LCEの後かつ出力投影の前に適用される明示的なsigmoidゲートを用いる。
  • Mini-ImageNetおよびCIFAR-10に対し同一の学習プロトコルで実験を行ったところ、Mini-ImageNetではRMTベースラインに比べて大きな改善が見られるが、CIFAR-10では、適応的なウィンドウリングがグローバル注意へと崩れてしまうため、改善はごく小さい。

Abstract

シフトウィンドウ注意(Swin Transformer)とマンハッタン距離に基づく空間的減衰(Retentive Networks: RMT)を、入力依存のゲーティングで拡張したハイブリッド視覚トランスフォーマのファミリーであるGated-SwinRMTを提案します。自己注意は、各シフトウィンドウ内で幅方向と高さ方向の保持(retention)を連続した2回のパスとして分解されます。ヘッドごとの指数減衰マスクが、学習された位置バイアスなしで2次元の局所性の事前分布を与えます。 2つのバリアントを提案します。\textbf{Gated-SwinRMT-SWAT}は、softmaxをsigmoid活性で置き換え、乗算による事後活性の空間減衰を用いてバランスの取れたALiBiの傾き(slope)を実装し、値の射影をSwiGLUでゲートします。正規化された出力は、情報を持たない注意スコアを暗黙に抑制します。\textbf{Gated-SwinRMT-Retention}は、softmax正規化された保持を、加法的な対数空間減衰のバイアスとともに保持し、明示的なG1 sigmoidゲートを組み込みます。このG1ゲートは、ブロック入力から射影され、局所コンテキスト強化(LCE)後に、出力射影~W_Oの前で適用されます。これにより、低ランクのW_V \,\cdot\, W_Oボトルネックを緩和し、注目された出力の入力依存的な抑制を可能にします。 同一の学習プロトコルのもとで、Mini-ImageNet(224{\times}224、100クラス)とCIFAR-10(32{\times}32、10クラス)に対して両方のバリアントを評価します。資源制限のため、単一GPUを使用します。約{\approx}77--79Mパラメータにおいて、Gated-SwinRMT-SWATはMini-ImageNetでトップ1テスト精度80.22\%を達成し、Gated-SwinRMT-Retentionは78.20\%を達成します。これはRMTベースラインの73.74\%と比べて改善です。CIFAR-10では、小さな特徴マップのため適応的なウィンドウ化メカニズムが注意をグローバルな範囲へ崩壊させるため、精度向上の優位性は+6.48\,ppから+0.56\,ppへと圧縮されます。