広告

TF-SSD:学習不要の共顕著物体検出のための相乗的マスクフィルタによる強力なパイプライン

arXiv cs.CV / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来手法に典型的なクローズドセットの学習制約を超えてより良く一般化することを目的とした、学習不要の共顕著物体検出パイプラインTF-SSDを提案する。
  • TF-SSDは、SAMを用いてラフなマスク提案を生成し、その後品質マスク生成器によって冗長なマスクをフィルタリングすることで、SAMとDINOを相乗的に活用する。
  • SAMベースのフィルタは顕著性のセマンティクスを欠くため、TF-SSDはDINOの注意(attention)マップを用いて、各画像ごとに視覚的に顕著なマスクを選択する「画像内顕著性フィルタ」を追加する。
  • 関連する画像群における一貫性を確保するために、さらに画像間のプロトタイプ類似度を比較し、最も高得点のマスクを最終予測として保持する「画像間プロトタイプセレクタ」を提案する。
  • 実験では、TF-SSDが既存手法よりも高い性能を示し、最新の学習不要ベースラインに対して13.7%の改善が得られたと報告されている。コードはGitHubで公開されている。

Abstract

共通の注目対象検出(Co-salient Object Detection; CoSOD)は、関連する画像群の中で一貫して現れる注目対象をセグメント化することを目的とします。近年の学習ベース手法によって目覚ましい進歩が達成されているにもかかわらず、それらは依然としてクローズドセットのデータセットに制約されており、汎化性能が限られています。しかし、CoSODに対処するためのビジョン・ファンデーション・モデル(Vision Foundation Models; VFMs)の可能性を探る研究はほとんどありません。VFMsは、優れた汎化能力と頑健な注目(サリエンシー)理解を示すためです。本論文では、CoSODに対してVFMsを調査し、活用します。さらに、SAMとDINOの相乗効果により、新しい学習不要手法であるTF-SSDを提案します。具体的には、まずSAMを利用して包括的な生の提案(raw proposals)を生成し、候補マスクのプールとして用います。次に、冗長なマスクを除外する品質マスク生成器を導入し、それによって洗練されたマスク集合を獲得します。この生成器はSAMに基づいて構築されているため、注目のセマンティクス理解が本質的に欠けています。そこで、そのために、画像内の注目フィルタを採用します。このフィルタでは、DINOの注意(attention)マップを用いて、個々の画像内で視覚的に注目度の高いマスクを特定します。さらに、画像群にまたがる注目理解を拡張するために、画像間プロトタイプ選択器(inter-image prototype selector)を提案します。これは、画像をまたぐプロトタイプ間の類似度スコアを計算し、最も高いスコアを持つマスクを選択します。選択されたマスクは、CoSODの最終予測として用いられます。大規模な実験の結果、TF-SSDは既存手法(例えば、直近の学習不要手法に対して13.7 ext%の向上)を上回ることが示されます。コードは https://github.com/hzz-yy/TF-SSD で公開されています。

広告