VL-SAM-v3：メモリに導かれた視覚的プライオアによるオープンワールド物体検出

arXiv cs.CV / 2026/5/6

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文では、オープンワード物体検出においてオープン語彙型とオープンエンド型の両方に対応する統一手法としてVL-SAM-v3を提案する。
VL-SAM-v3は、粗いテキスト意味論やパラメトリックな知識への依存を主にやめ、非パラメトリックなメモリバンクから関連する視覚プロトタイプを検索して、より確かな視覚的プライオアを構築する。
検索したプロトタイプを、インスタンス単位の空間アンカーのためのスパースなプライオアと、クラスに応じた局所コンテキストのためのデンスなプライオアという2種類の補完的なプライオアへ変換する。
Memory-Guided Prompt Refinementにより、これらのプライオアを検出プロンプトへ統合し、推論時に共通の検索・改良（retrieval-and-refinement）メカニズムとして機能させる。
LVISでのゼロショット実験では一貫した改善が示され、特にレアカテゴリでの向上が大きく、さらにより強力なオープン語彙検出器（SAM3）でも提案機構の汎用性が確認される。

要旨: オープンワールド物体検出は、固定された閉集合ラベル空間を超えて、物体を位置特定し認識することを目的とします。これは一般に2つのカテゴリ、すなわち、テスト時に事前に定義されたカテゴリリストを仮定するオープン・ボキャブラリ検出と、推論の間に候補カテゴリを生成することを必要とするオープンエンド検出に分けられます。既存の手法は主として粗いテキスト意味論とパラメトリックな知識に依存しており、細かな外観の変動、稀なカテゴリ、雑然としたシーンに対して十分ではない視覚的証拠しか提供できないことがしばしばです。本論文では、オープンワールド検出を検索に基づく外部視覚メモリで補強する統一フレームワークであるVL-SAM-v3を提案します。具体的には、候補カテゴリが利用可能になった後、VL-SAM-v3は非パラメトリックなメモリバンクから関連する視覚プロトタイプを検索し、それらを2つの補完的な視覚的事前情報へと変換します。すなわち、インスタンスレベルの空間アンカリングのための疎な事前情報と、クラスに配慮したローカルな文脈のための密な事前情報です。これらの事前情報は、Memory-Guided Prompt Refinement（メモリに導かれたプロンプトの洗練）によって元の検出プロンプトに統合され、オープン・ボキャブラリ推論とオープンエンド推論の両方を支える、検索と洗練の共有メカニズムを可能にします。LVISに対する大規模なゼロショット実験により、VL-SAM-v3はオープン・ボキャブラリ推論およびオープンエンド推論のいずれにおいても一貫して検出性能を向上させ、特に稀なカテゴリで顕著な改善が得られることを示します。さらに、より強力なオープン・ボキャブラリ検出器（すなわちSAM3）を用いた実験により、提案する検索と洗練のメカニズムの一般性が検証されます。