Gated-SwinRMT：入力依存型ゲーティングにより、レテンティブなマンハッタン減衰でSwinのウィンドウ化注意を統合する

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Gated-SwinRMTは、Swinのシフト付きウィンドウ注意とRetentive Networksのマンハッタン距離に基づく空間減衰を組み合わせた提案型のハイブリッド・ビジョントランスフォーマ手法であり、局所性と選択的な出力抑制のために入力依存型ゲーティングを追加する。
本論文では、各シフト付きウィンドウ内の注意を、幅方向と高さ方向のレテンション・パスに分解し、学習された位置バイアスを用いない2Dの局所性事前分布として、ヘッドごとの指数減衰マスクを用いる。
2つのバリアントを導入する：Gated-SwinRMT-SWATはsoftmaxをsigmoidに置き換え、SwiGLUを用いて値投影をゲートする。一方、Gated-SwinRMT-Retentionは、softmax正規化されたレテンションに加え、LCEの後かつ出力投影の前に適用される明示的なsigmoidゲートを用いる。
Mini-ImageNetおよびCIFAR-10に対し同一の学習プロトコルで実験を行ったところ、Mini-ImageNetではRMTベースラインに比べて大きな改善が見られるが、CIFAR-10では、適応的なウィンドウリングがグローバル注意へと崩れてしまうため、改善はごく小さい。

Abstract

シフトウィンドウ注意（Swin Transformer）とマンハッタン距離に基づく空間的減衰（Retentive Networks: RMT）を、入力依存のゲーティングで拡張したハイブリッド視覚トランスフォーマのファミリーであるGated-SwinRMTを提案します。自己注意は、各シフトウィンドウ内で幅方向と高さ方向の保持（retention）を連続した2回のパスとして分解されます。ヘッドごとの指数減衰マスクが、学習された位置バイアスなしで2次元の局所性の事前分布を与えます。 2つのバリアントを提案します。\textbf{Gated-SwinRMT-SWAT}は、softmaxをsigmoid活性で置き換え、乗算による事後活性の空間減衰を用いてバランスの取れたALiBiの傾き（slope）を実装し、値の射影をSwiGLUでゲートします。正規化された出力は、情報を持たない注意スコアを暗黙に抑制します。\textbf{Gated-SwinRMT-Retention}は、softmax正規化された保持を、加法的な対数空間減衰のバイアスとともに保持し、明示的なG1 sigmoidゲートを組み込みます。このG1ゲートは、ブロック入力から射影され、局所コンテキスト強化（LCE）後に、出力射影~

W_O

の前で適用されます。これにより、低ランクの

W_V \,\cdot\, W_O

ボトルネックを緩和し、注目された出力の入力依存的な抑制を可能にします。同一の学習プロトコルのもとで、Mini-ImageNet（

224{\times}224

、100クラス）とCIFAR-10（

32{\times}32

、10クラス）に対して両方のバリアントを評価します。資源制限のため、単一GPUを使用します。約

{\approx}77

79

Mパラメータにおいて、Gated-SwinRMT-SWATはMini-ImageNetでトップ1テスト精度

80.22\%

を達成し、Gated-SwinRMT-Retentionは

78.20\%

を達成します。これはRMTベースラインの

73.74\%

と比べて改善です。CIFAR-10では、小さな特徴マップのため適応的なウィンドウ化メカニズムが注意をグローバルな範囲へ崩壊させるため、精度向上の優位性は

+6.48

\,ppから

+0.56

\,ppへと圧縮されます。

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

Gated-SwinRMT：入力依存型ゲーティングにより、レテンティブなマンハッタン減衰でSwinのウィンドウ化注意を統合する

要点

Abstract

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険