AI Navigate

SSP-SAM: セマンティック-スペーシャル・プロンプトを用いたSAMによる参照表現分割

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • SSP-SAM は、セマンティック-スペーシャル・プロンプト・エンコーダを SAM と統合し、言語ガイド付きの画像分割を実現します。
  • 視覚的および言語的アテンション・アダプターの双方を用い、目立つオブジェクトと識別的なフレーズを強調することで、プロンプト生成器の参照対象表現を改善します。
  • Generalized RES に特化して設計されたわけではないが、SSP-SAM は追加の変更なしに、0、1、または複数の参照対象を自然にサポートします。
  • RES、GRES、PhraseCut に関する広範な実験は、Pr@0.9 のような厳密な閾値での高精度やオープンボキャブラリの改善を含む、優れた性能を示しています。
  • 著者は再現性と実用的な導入を支援するため、提供された GitHub URL にコードとチェックポイントを公開しています。

概要: Segment Anything Model (SAM) は一般的な画像分割において卓越している一方で、自然言語を理解する能力が限られており、それが Referring Expression Segmentation (RES) への直接的な適用を制限している。この目的のために、Semantic-Spatial Prompt (SSP) エンコーダを統合することで SAM の分割能力を完全に活用する SSP-SAM というフレームワークを提案します。具体的には、SSP エンコーダに視覚的・言語的注意アダプターの両方を組み込み、視覚特徴内の顕著なオブジェクトと、言語特徴内の識別的なフレーズを強調します。この設計は、プロンプト生成器の参照主体表現を高め、言語によって導かれる高品質な SSP を生み出し、SAM が言語に導かれた正確なマスクを生成できるようにします。 Generalized RES (GRES) を特に想定したものではないものの、参照主体が0個、1個、または複数のオブジェクトに対応する可能性がある場合でも、SSP-SAM は追加の変更なしでこのより柔軟な設定を自然にサポートします。広く用いられている RES および GRES のベンチマークでの広範な実験は、我々の手法の優位性を確認します。特に、我々のアプローチは高品質なセグメンテーションマスクを生成し、Pr@0.9 のような厳密な閾値でも高い精度を達成します。PhraseCut データセットでのさらなる評価は、既存の最先端の RES 手法と比較してオープンボキャブラリ環境での性能向上を示します。コードとチェックポイントは以下で入手可能です: https://github.com/WayneTomas/SSP-SAM。