広告

Excite, Attend and Segment (EASe): 特徴キャリブレーションと自己教師ありアップサンプリングによるドメイン非依存の微細なマスク発見

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、複雑で多成分からなる形態を持つシーンにおいて微細なマスクを発見することを目的とした、教師なし・ドメイン非依存のセマンティックセグメンテーションフレームワーク「EASe」を提案する。
  • EASeは、粗いパッチレベルでのマスク発見を改善し、セマンティック・アウェア・アップサンプリング(Semantic-Aware Upsampling)とチャネル励起(Channel Excitation)を用いて、低解像度の基盤モデル特徴を選択的にキャリブレーションする(SAUCE)ことで、ピクセルレベルの特徴表現上で動作する。
  • さらに、空間エンコードされた画像特徴と基盤モデル特徴を統合する注意(attention)によって、完全解像度のセマンティック構造を復元する。
  • 追加学習なしで多粒度のマスクを生成するために、EASeは、SAUCEの注意スコアを意味的なグルーピング指標として用いる、学習不要のCue-Attentive Feature Aggregator(CAFE)を採用する。
  • 実験では、EASeが複数のベンチマークおよびデータセットにおいて、従来の最先端の教師なしセグメンテーション手法を上回ることが報告されており、著者らは公開コードも提供している。

Abstract

教師なしセグメンテーション手法は、目立つ物体の発見を改善するために基盤モデル(FM)を活用することがますます増えています。しかし、これらの手法は複雑で多成分の形態(モルフォロジー)が存在するシーンではしばしば機能不全に陥り、そのような場合には微細な構造情報が不可欠です。最先端の教師なしセグメンテーションの多くのパイプラインは、粗いパッチ単位の表現を利用するマスク発見アプローチに依存しています。これらの粗い表現は、本質的に、そのような複雑な形態を解決するために必要な微細な詳細を抑制してしまいます。この制約を克服するために、私たちは、困難な現実世界のシーンにおいて微細なマスクを容易に発見できる、教師なし・ドメイン非依存のセマンティックセグメンテーションフレームワークである Excite, Attend and Segment(EASe)を提案します。EASe は、新しい Semantic-Aware Upsampling with Channel Excitation(SAUCE)を用いて、低解像度の FM 特徴チャネルを励起し、選択的なキャリブレーションを行います。また、空間的に符号化された画像特徴と FM 特徴の間で注意(アテンション)を適用し、フル解像度のセマンティック表現を復元します。最後に、EASe は、新しいトレーニング不要の Cue-Attentive Feature Aggregator(CAFE)によって集約された特徴を、多粒度のマスクへと分割します。CAFE は、セマンティックなグルーピングの手がかりとして SAUCE の注意スコアを活用します。EASe は、SAUCE および CAFE とともに、ピクセルレベルの特徴表現上で直接動作することで、正確で微細な密なセマンティックマスク発見を可能にします。評価の結果、EASe は複雑な形態を扱う主要な標準ベンチマークおよび多様なデータセットにおいて、これまでの最先端(SOTA)を上回る性能を示しました。コードは https://ease-project.github.io で利用可能です

広告