Abstract
少数ショット意味セグメンテーション(FSS)は、ごく少数の注釈付き例から新規の物体カテゴリをセグメント化することに焦点を当てます。既存のほとんどの手法は、転移可能な表現を学習するために、大規模なエピソード型トレーニングに依存していますが、これは計算負荷が高く、さらに分布シフトに敏感です。本研究では、現代の視覚基盤モデルという観点からFSSを再検討し、学習不要の解決策としてSegment Anything Model 3(SAM3)の可能性を探ります。Promptable Concept Segmentation(PCS)機能を転用することで、サポート画像とクエリ画像を共有キャンバス上に配置する単純な空間的連結戦略を採用します。これにより、SAM3を完全に凍結したまま、微調整やアーキテクチャ変更なしでセグメンテーションを実行できます。PASCAL-5^i および COCO-20^i に関する実験では、この最小限の設計だけで既に最先端の性能に到達し、多くの高度に設計された手法を上回ることが示されます。さらに、経験的な改善に加えて、少数ショットの設定ではネガティブプロンプトが逆効果になり得ることを明らかにします。ネガティブプロンプトは、本来は注意対象の妨害要素(ディストラクタ)を抑制するための役割を意図しているにもかかわらず、ターゲット表現を弱め、意図に反して予測の崩壊(prediction collapse)につながることが多いのです。これらの結果は、単純な空間的な定式化から強力なクロスイメージ推論が生まれ得ることを示唆すると同時に、現在の基盤モデルが対立するプロンプト信号をどのように扱うかに関する限界も浮き彫りにします。コード: https://github.com/WongKinYiu/FSS-SAM3