要約: 本論文では、未編集動画において外部からのビジュアルクエリに基づき、関心のある対象物の全てのピクセルレベルの出現をセグメント化することを目指す、ビジュアルクエリローカリゼーション(VQL)の新しいパラダイムであるビジュアルクエリセグメンテーション(VQS)を紹介する。対象の最後の出現のみをバウンディングボックスで定位する既存のVQLと比較し、VQSはより包括的(すなわち全ての対象物出現)かつ正確(すなわちピクセルレベルマスク)な定位を可能にし、実世界のシナリオにおいてより実用的である。本課題の研究促進のために、VQSのための大規模ベンチマークであるVQS-4Kを提示する。具体的には、VQS-4Kは4,111本の動画と130万フレーム超を含み、多様な222の物体カテゴリを網羅している。各動画は検索対象外のフレームとそのターゲットマスクによって定義されるビジュアルクエリと対になっており、クエリ対象に対応する時空間マスクリットで注釈されている。高品質を確保するために、VQS-4Kの全動画は厳密な検査と反復的な精査を経て手動でラベル付けされている。筆者らの知る限り、VQS-4KはVQSに特化して設計された最初のベンチマークである。さらに将来の研究を刺激するために、VQ-SAMと名付けた簡潔ながら効果的な手法を提案する。これはSAM 2を拡張し、動画からの対象特異的及び背景妨害要素手がかりを活用して、新規のマルチステージフレームワークと適応的メモリ生成(AMG)モジュールを通じてメモリを段階的に進化させることで、VQSの性能を著しく向上させる。VQS-4K上の広範な実験において、VQ-SAMは有望な結果を示し、既存の手法を凌駕してその有効性を実証した。提案したVQS-4KとVQ-SAMにより、現在のVQLパラダイムを超えたさらなるVQSの研究と実用的応用を促進することを期待している。ベンチマーク、コード、および結果は公開される予定である。
野外におけるビジュアルクエリセグメンテーションへの道
arXiv cs.CV / 2026/3/11
Tools & Practical UsageModels & Research
要点
- 本論文はビジュアルクエリセグメンテーション(VQS)という新しいパラダイムを提案する。これは、ビジュアルクエリが与えられた未編集動画内の対象物のすべてのピクセルレベルの出現をセグメント化するもので、対象の最後の出現位置をバウンディングボックスで特定する既存のビジュアルクエリローカリゼーション(VQL)手法を超える。
- VQSのための大規模ベンチマークデータセットVQS-4Kを提示。4,111本の動画、130万フレーム超、222の物体カテゴリを含み、各クエリ対象に対して精緻に手動でアノテーションされた時空間マスクリットが用意されている。
- 著者らはVQ-SAMという手法を提案。これはSAM 2を拡張し、動画からの対象特異的および背景の邪魔要素の手がかりを活用するマルチステージフレームワークを採用し、適応的メモリ生成モジュールを通じてメモリを進化させ、セグメンテーション精度を向上させる。
- VQS-4K上の実験結果では、VQ-SAMが既存手法を大幅に上回る性能を示し、提案手法の有効性を立証し、将来のビジュアルクエリセグメンテーション研究の新たな基準を設定。
- データセット、コード、結果は公開予定であり、現行のビジュアルクエリローカリゼーションの枠組みを超えたさらなる研究と実用的応用の促進を目指す。
