学習によるランキング:重要度ランキングを学習することで行う視覚的アトリビューション

arXiv cs.CV / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モデルの予測に寄与する入力領域を示す視覚的アトリビューションマップを生成することで、信頼性と説明責任の向上を目指し、安全性が重要となる領域におけるコンピュータビジョンの重要な解釈可能性(インタプリタビリティ)課題に取り組む。
  • 先行手法には三者間のトレードオフがあると主張する。すなわち、伝播(propagation)系手法は効率的だが偏りやすく、アーキテクチャ依存になりがちである。一方、摂動(perturbation)系手法は因果的根拠に基づくものの高コストで、またビジョントランスフォーマーではしばしば粗い説明になりやすい。さらに、学習ベースの説明器は高速だが、代理(サロゲート)または教師に駆動された目的に依存する。
  • 著者らは、削除(deletion)および挿入(insertion)の指標を直接最適化する学習アプローチを提案し、ランキングを順列学習として再定式化する。加えて、非微分なソーティング(並べ替え)にもかかわらずエンドツーエンド学習を可能にするために、微分可能なGumbel-Sinkhornの緩和を用いる。
  • 提案手法は、対象モデルに対するアトリビューション誘導の摂動で学習し、単一のフォワードパスで高密度なピクセルレベルのアトリビューションを生成する。推論時に少数ステップの勾配による追加リファインメントを行うオプションもある。
  • 実験結果から、特にトランスフォーマー型ビジョンモデルにおいて、定量的な改善が一貫して得られ、境界に整合したよりシャープな説明が得られることが示される。