広告

作ってしまえ:偽画像で本物の成果を—一般化少数ショット意味セグメンテーション

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般化少数ショット意味セグメンテーションにおける重要な制約、すなわちアノテーションの不足により新規クラスの見た目の多様性を十分にカバーできず、マスクが信頼できない、または欠落している場合にノイズの多い教師信号が生じる点に取り組む。
  • 拡張用の新規クラスのカバー範囲を広げつつ、サポートに導かれた洗練(refinement)によって疑似ラベルの品質も向上させるために、拡散モデルで生成した合成画像を用いる Syn4Seg を提案する。
  • Syn4Seg は、新規クラスごとに埋め込みベースで重複排除したプロンプトバンクを構築し、クラス整合性を保ちつつ多様な合成画像を作成することで、プロンプト/外観(appearance)空間のより良いカバーを目指す。
  • 疑似ラベルは二段階のプロセスで推定する。まず、一貫性フィルタリングにより高精度のシード領域を抽出し、次にグローバルなサポートとローカルな画像統計を組み合わせた画像適応型プロトタイプにより、不確かな画素を再ラベル付けする。
  • 境界帯(boundary-band)および未ラベル画素のみを、制約付き SAM ベースの更新で洗練し、輪郭の忠実性を高める一方で、高い信頼をもつ内部領域を上書きしない。実験では、1-shot および 5-shot の両設定において、PASCAL-5i と COCO-20i のいずれでも一貫した改善が示される。

要旨: 一般化された少数ショット意味セグメンテーション(GFSS)は、乏しい注釈のもとで新規クラスの出現パターンをどれだけカバーできるかによって根本的に制約されます。拡散モデルは大規模に新規クラス画像を合成できますが、実際の改善は、マスクが利用できない、または信頼できない場合に、カバレッジ不足やノイズの多い教師信号によってしばしば妨げられます。本研究では、擬似ラベルの品質を向上させつつ、新規クラスのカバレッジを拡張することを目的とした、生成強化GFSSフレームワークであるSyn4Segを提案します。Syn4Segはまず、新規クラスごとに埋め込み重複排除(deduplication)されたプロンプトバンクを構築することで、プロンプト空間のカバレッジを最大化し、多様でありながらクラス整合的な合成画像を得ます。次に、二段階の洗練(refinement)によって、サポートに導かれた擬似ラベル推定を行います。具体的には、i) 一貫性の低い領域をフィルタして高精度なシードを取得し、ii) 不確実な画素を、グローバル(サポート)とローカル(画像)の統計を組み合わせた画像適応型プロトタイプで再ラベル付けします。最後に、境界帯(boundary-band)および未ラベル画素のみを、制約付きSAMベースの更新で洗練し、高信頼な内部領域を上書きすることなく輪郭の忠実性を改善します。PASCAL-5^iおよびCOCO-20^iに関する大規模な実験では、1-shotおよび5-shotの両設定で一貫した改善が示され、信頼できるマスクと正確な境界を備えたGFSSのための、合成データをスケーラブルな道筋として提示します。

広告