GradAttn：固定的な残差接続をタスクで変調される注意（Attention）経路に置き換える

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、深いConvNetにおける固定的な残差接続が、入力の複雑さや深さ方向でのタスクの関連性に応じて、勾配の流れや特徴の強調を適応的に変えられないため、学習を制限しうると論じている。
自己注意（self-attention）によって制御された勾配の流れを用い、固定された残差ショートカットを置き換えるハイブリッドなCNN–トランスフォーマー手法としてGradAttnを提案する。マルチスケールのCNN特徴を用いる。
8つのデータセット（自然画像、医療画像、ファッション認識を含む）での実験により、GradAttnの各バリアントはResNet-18より5つのデータセットで優れ、モデルサイズを同程度に保ったままFashionMNISTで最大+11.07%の精度向上が得られることを示す。
勾配の流れの分析から、注意によって誘発されるある種の制御された不安定性が、より良い汎化と相関する可能性が示唆され、「最大の安定性が常に最適である」という考えに反する。
また、本研究では位置エンコーディングの有効性がデータセット依存であることが分かり、CNNの階層構造が単独で十分な空間的構造を提供できる場合があることも明らかにしている。

要旨: 深層ConvNetsはネットワークの深さが増すにつれて勾配信号が劣化し、その結果、複雑なアーキテクチャにおける有効な特徴学習が制限されます。ResNetは残差結合によってこの問題に対処しましたが、固定されたショートカットでは、入力の複雑さの変動に適応したり、ネットワーク階層全体にわたって課題に関連する特徴を選択的に強調したりすることはできません。本研究では、固定の残差結合を注意（attention）によって制御された勾配伝播に置き換える、ハイブリッドCNN-トランスフォーマーの枠組みGradAttnを提案します。異なる深さでマルチスケールのCNN特徴を抽出し、それらを自己注意によって調整することで、GradAttnは浅い層のテクスチャ特徴と深い層の意味表現を動的に重み付けします。表現分析のために、8つの多様なデータセットに対して3種類のGradAttnバリアントを評価しました。自然画像、医用画像からファッション認識まで幅広く扱います。結果は、GradAttnが8つのデータセットのうち5つでResNet-18を上回り、FashionMNISTではネットワークサイズを同等に保ちながら最大+11.07%の精度向上を達成することを示しています。勾配伝播の分析では、注意によって導入される制御された不安定性が、改善された汎化と一致することが多いことが明らかになり、「完全な安定性が最適である」という仮定に挑戦します。さらに、位置エンコーディングの有効性はデータセット依存であり、CNN階層が十分な空間構造をしばしば符号化していることが分かります。これらの知見は、学習可能な勾配制御の実現手段として注意メカニズムを位置づけ、深いニューラルアーキテクチャにおける適応的な表現学習の新しいパラダイムを提供します。