PR-MaGIC: マスクデコーダのグラディエントフローによるインコンテキスト・セグメンテーションのためのプロンプト洗練
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、SAM のような視覚基盤モデルを基盤とするインコンテキスト画像セグメンテーションに対し、プロンプトを洗練する学習不要の推論時手法 PR-MaGIC を提案する。
- 既存のインコンテキスト手法における主要な弱点、すなわちサポート画像とクエリ画像間の視覚的不整合によって生じる不十分なプロンプトを扱う。
- PR-MaGIC は、SAM のマスクデコーダからのグラディエントフローを活用してプロンプトの質を向上させ、その結果としてセグメンテーション出力を改善する。さらに、既存のインコンテキスト・セグメンテーション枠組みにそのまま組み込める。
- 著者らは、性能の頑健性を異なるサンプル間で確保するための理論的な正当化と、実用的な安定化メカニズム(単純な top-1 選択戦略)を提示する。
- 複数のベンチマークで行った実験により、追加学習やアーキテクチャ変更なしで一貫したセグメンテーション品質の改善が確認される。




