要旨: 本稿では、エンドツーエンドの特徴整合(feature alignment)による固有のクラス帰属を備えた試作CNNアーキテクチャであるFeature-Align CNN(FA-CNN)を提示する。私たちの直感は、Linear層やConv2D層のような順序なしの操作を用いることで、不必要なシャッフルや意味概念の混合が生じ、その結果として、生の特徴マップが理解しにくくなるというものである。そこで、順序を保持する新しい層として、減衰付きスキップ接続(dampened skip connection)と、グローバル平均プーリング分類ヘッド(global average pooling classifier head)の2つを導入する。これらの層は、モデルが生の入力ピクセルから最終的なクラスのロジットに至るまで、エンドツーエンドで特徴整合を維持することを強制する。このエンドツーエンドの整合により、生の特徴マップが本質的にクラス帰属を示すことが可能になり、モデルの解釈可能性が向上する。さらに、FA-CNNの直前(penultimate)特徴マップがGrad-CAMのサリシー(saliency)マップと同一であることを理論的に証明する。加えて、これらの特徴マップがネットワークの深さ方向に沿って層ごとにゆっくりと変形(モーフィング)し、ペンアルティメットのクラス活性へ向けて特徴がどのように進化するかを示すことも証明する。FA-CNNはベンチマークの画像分類データセットで良好な性能を示す。さらに、パーセント画素削除(percent pixels removed)の解釈可能性タスクにおいて、平均化したFA-CNNの生特徴マップをGrad-CAMおよびパーミュテーション(置換)手法と比較する。本研究は、議論と今後の展望(限界およびハイブリッドモデルに向けた拡張を含む)によって締めくくる。
エンドツーエンドの特徴アラインメント:本質的クラス帰属を備えたシンプルなCNN
arXiv cs.CV / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、入力からクラス帰属までの特徴アラインメントをエンドツーエンドで行い、その特徴マップに本質的なクラス帰属をもたらすことを目的としたプロトタイプの畳み込みニューラルネットワーク「Feature-Align CNN(FA-CNN)」を提案する。
- 一般的な順序を持たない操作(例:LinearおよびConv2D)が意味的概念をシャッフルし得ると主張し、順序を保存するメカニズムとして、減衰させたスキップ接続とグローバル平均プーリングによる分類ヘッドを提案する。これにより、入力ピクセルからクラスのロジットまでのアラインメントを維持する。
- 著者らは理論的結果を提示し、FA-CNNの最終直前(penultimate)特徴マップがGrad-CAMのサリシー(saliency)マップと同一であることを示す。これにより、モデルの解釈可能性が既存の帰属手法と結び付くことを強める。
- さらに、ネットワーク深さ方向において、特徴が徐々に変形(morph)して最終直前のクラス活性へ向かうことを解析的に示し、表現が層ごとにどのように変化するかを記述する。
- 実験では、ベンチマークにおける画像分類性能が高いこと、ならびに「パーセント・ピクセル除去」評価タスクにおいて、Grad-CAMおよび順列(permutation)ベースラインよりも解釈可能性が向上することが報告される。



