Energy-Regularized Spatial Masking:視覚モデルの頑健性と解釈可能性を高めるための新しいアプローチ
arXiv cs.CV / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚CNNにおいて、大規模な総当たりの密な特徴処理を、学習された入力適応型の特徴選択に置き換えることで、頑健性と解釈可能性を改善する Energy-Regularized Spatial Masking(ERSM)を提案する。
- ERSMは軽量な Energy-Mask Layer を埋め込み、各視覚トークンに対して、単項の固有重要度と、空間的な整合性を促す双項ペナルティを組み合わせたスカラー「エネルギー」を割り当てる。これは、微分可能なエネルギー最小化によって最適化される。
- 固定的な疎性(スパース性)の予算や、ヒューリスティックなプルーニングスコアに頼るのではなく、各入力画像に合わせて情報密度の平衡状態をネットワーク自身に探索させる。
- 畳み込みアーキテクチャでの実験により、創発的な疎性、構造化された遮蔽に対するより良い頑健性、分類精度を維持しつつより解釈可能な空間マスクが示される。
- 削除ベースの頑健性テストでは、学習されたエネルギー順位が大きさベースのプルーニングを上回る。さらに、それがピクセルレベルの教師なしで意味的な物体領域を分離する、内在的なデノイジング機構として機能していると主張される。


