Few-Shot Semantic Segmentation Meets SAM3

arXiv cs.CV / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は少数ショット意味セグメンテーション(FSS)を再検討し、高価なエピソード表現学習の代わりに Segment Anything Model 3(SAM3)を用いた、学習不要(training-free)のアプローチを提案する。
  • SAM3の「プロンプト可能な概念セグメンテーション」を、サポート画像とクエリ画像を共通の空間キャンバス上で連結することで転用し、完全に凍結したモデルとアーキテクチャ変更なしでセグメンテーションを可能にする。
  • PASCAL-$5^i$ および COCO-$20^i$ での実験では、最先端の結果が報告され、より多くの工夫を施した手法の多くを上回る。
  • 本研究では、否定プロンプトが少数ショット設定において性能を低下させ得ることを見出す。これは、対象表現が弱まって予測が崩壊(prediction collapse)を起こすためであり、基盤モデルが矛盾するプロンプト信号をどこまで扱えるかという限界を示している。
  • 著者らは、複製(再現)と、FSSにおける画像間推論のための空間プロンプト表現のさらなる探索を支援するコードを公開する。

Abstract

少数ショット意味セグメンテーション(FSS)は、ごく少数の注釈付き例から新規の物体カテゴリをセグメント化することに焦点を当てます。既存のほとんどの手法は、転移可能な表現を学習するために、大規模なエピソード型トレーニングに依存していますが、これは計算負荷が高く、さらに分布シフトに敏感です。本研究では、現代の視覚基盤モデルという観点からFSSを再検討し、学習不要の解決策としてSegment Anything Model 3(SAM3)の可能性を探ります。Promptable Concept Segmentation(PCS)機能を転用することで、サポート画像とクエリ画像を共有キャンバス上に配置する単純な空間的連結戦略を採用します。これにより、SAM3を完全に凍結したまま、微調整やアーキテクチャ変更なしでセグメンテーションを実行できます。PASCAL-5^i および COCO-20^i に関する実験では、この最小限の設計だけで既に最先端の性能に到達し、多くの高度に設計された手法を上回ることが示されます。さらに、経験的な改善に加えて、少数ショットの設定ではネガティブプロンプトが逆効果になり得ることを明らかにします。ネガティブプロンプトは、本来は注意対象の妨害要素(ディストラクタ)を抑制するための役割を意図しているにもかかわらず、ターゲット表現を弱め、意図に反して予測の崩壊(prediction collapse)につながることが多いのです。これらの結果は、単純な空間的な定式化から強力なクロスイメージ推論が生まれ得ることを示唆すると同時に、現在の基盤モデルが対立するプロンプト信号をどのように扱うかに関する限界も浮き彫りにします。コード: https://github.com/WongKinYiu/FSS-SAM3