PR-MaGIC: マスクデコーダのグラディエントフローによるインコンテキスト・セグメンテーションのためのプロンプト洗練

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、SAM のような視覚基盤モデルを基盤とするインコンテキスト画像セグメンテーションに対し、プロンプトを洗練する学習不要の推論時手法 PR-MaGIC を提案する。
  • 既存のインコンテキスト手法における主要な弱点、すなわちサポート画像とクエリ画像間の視覚的不整合によって生じる不十分なプロンプトを扱う。
  • PR-MaGIC は、SAM のマスクデコーダからのグラディエントフローを活用してプロンプトの質を向上させ、その結果としてセグメンテーション出力を改善する。さらに、既存のインコンテキスト・セグメンテーション枠組みにそのまま組み込める。
  • 著者らは、性能の頑健性を異なるサンプル間で確保するための理論的な正当化と、実用的な安定化メカニズム(単純な top-1 選択戦略)を提示する。
  • 複数のベンチマークで行った実験により、追加学習やアーキテクチャ変更なしで一貫したセグメンテーション品質の改善が確認される。

Abstract

Segment Anything Model(SAM)のような視覚基盤モデル(VFM)は、画像のセグメンテーションの幅広い利用を大きく前進させてきました。しかし、SAMとその派生モデルは、プロンプト生成のために相当の手作業を要し、さらに特定のアプリケーションに対応するための追加学習も必要です。近年の手法では、SAMをインコンテキスト(ワンショット/フューショット)セグメンテーションに統合することで、クエリ画像とサポート画像の意味的整合により自動プロンプト生成を可能にし、これらの制約を解決しようとしています。これらの取り組みにもかかわらず、サポート画像とクエリ画像の視覚的な不整合により生成されたプロンプトが最適でないものとなり、その結果としてセグメンテーションの品質が低下します。この制限に対処するために、我々はPR-MaGIC(In-Context Segmentationにおけるマスクデコーダの勾配フローによるプロンプト洗練)を提案します。PR-MaGICは、SAMのマスクデコーダから導出される勾配フローによりプロンプトを洗練する、学習不要のテスト時フレームワークです。PR-MaGICはインコンテキストセグメンテーションの枠組みにシームレスに統合でき、理論的裏付けを持ちながら、サンプル間で頑健な性能を保証する単純なtop-1選択戦略によって実用上安定化されています。広範な評価の結果、PR-MaGICはさまざまなベンチマークにおいて一貫してセグメンテーション品質を向上させ、不十分なプロンプトによる悪影響を、追加学習やアーキテクチャ変更なしで効果的に緩和できることが示されました。

PR-MaGIC: マスクデコーダのグラディエントフローによるインコンテキスト・セグメンテーションのためのプロンプト洗練 | AI Navigate