IP-SAM：プロンプト空間による条件付けで実現する、プロンプト非提示のカモフラージュ物体検出

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

IP-SAMは、プロンプト条件付きセグメンテーションにおけるデプロイ時の不一致に対処するため、プロンプト空間でモデルを条件付けることで、推論時に外部プロンプトが利用できない場合でもセグメンテーションを可能にします。
本手法はSelf-Prompt Generator（SPG）を用いて、画像文脈から本質的で粗い領域アンカープロンプトを導出し、それをSAM2の凍結したプロンプトエンコーダへ入力することで、ネイティブなプロンプト・インターフェースを維持します。
Prompt-Space Gating（PSG）は、デコード前に本質的な背景プロンプトを用いた非対称な制約を適用することで、背景に起因する誤検出（false positive）を抑制します。
実験では、学習可能パラメータ21.26Mのみで、SPG/PSGとタスク固有のデコーダをスクラッチから学習しつつ、プロンプトエンコーダは凍結（画像エンコーダにはLoRA）した状態で、カモフラージュ物体検出の4つのベンチマークにおいて最先端の性能を報告しています。
プロンプト空間による条件付けの戦略はCODの枠を越えて転移し、医療ポリープのセグメンテーションにおいてKvasir-SEGからCVC-ClinicDBおよびETISへの強力なゼロショット汎化を示します。

概要: プロンプト条件付きの基盤セグメンターは、画像セグメンテーションにおいて支配的なパラダイムとして登場してきました。そこでは、明示的な空間プロンプト（例：点、ボックス、マスク）がマスク復号を導きます。しかし、多くの実運用では完全自動のセグメンテーションが必要となり、構造的な不一致が生じます。すなわち、デコーダは推論時に利用できないプロンプトを想定しているのです。既存の適応手法は主に中間特徴を変更することで対応していますが、その結果としてモデル本来のプロンプト・インターフェースを意図せず迂回し、プロンプト条件付きの復号を弱めてしまいます。そこで本研究では、プロンプト空間の観点から適応を再検討するプロンプト空間条件付けにより IP-SAM を提案します。具体的には、自己プロンプト生成器（Self-Prompt Generator: SPG）が、画像の文脈を補完的な内在プロンプトへ蒸留し、粗い領域のアンカーとして機能させます。これらの手がかりは、SAM2 の凍結されたプロンプトエンコーダを通じて射影されることで、外部介入なしにプロンプト誘導の復号を復元します。背景による偽陽性を抑制するために、プロンプト空間ゲーティング（Prompt-Space Gating: PSG）は、復号の前に、内在的な背景プロンプトを非対称な抑制制約として活用します。外部プロンプトなしの決定論的プロトコルの下で、IP-SAM は 4 つのカメフラージュ物体検出ベンチマーク（例：COD10K で MAE 0.017）において最先端の性能を達成します。さらに、学習可能パラメータは 21.26M のみで、SPG、PSG、そしてスクラッチから学習するタスク固有のマスクデコーダに加え、プロンプトエンコーダを凍結したまま画像エンコーダに LoRA を適用します。加えて、提案する条件付け戦略は COD を超えて一般化し、医療ポリープセグメンテーションにおいても有効です。Kvasir-SEG のみで学習したモデルは、CVC-ClinicDB と ETIS の両方に対して強いゼロショット転移を示します。