DETR-ViP:頑健な識別的ビジュアルプロンプトを用いた検出トランスフォーマ

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚プロンプトはレアカテゴリの認識でテキストプロンプトより優位になり得る一方、視覚プロンプトには全体的な識別性が欠けるため視覚プロンプトによる検出の性能が伸びないと指摘しています。
  • DETR-ViPはこの課題に対処するため、一般的な画像—テキストのコントラスト学習を超えて、クラスを区別できる視覚プロンプトを学習する頑健な物体検出トランスフォーマ枠組みを提案します。
  • DETR-ViPは、グローバルなプロンプト統合と、視覚—テキスト間の関係蒸留によって、より識別的なプロンプト表現を獲得します。
  • さらに、検出を安定化・頑健化するための選択的フュージョン戦略を採用します。
  • COCO、LVIS、ODinW、Roboflow100での実験により、DETR-ViPが既存の最先端手法より視覚プロンプト検出で大幅に高い性能を達成し、アブレーション研究と分析で有効性が裏付けられています。

要旨: 視覚プロンプトによるオブジェクト検出は、目標カテゴリをインタラクティブかつ柔軟に定義できるため、オープン語彙検出を促進します。視覚プロンプトは画像特徴から直接導出されるため、希少なカテゴリを認識する点で、テキストプロンプトよりも優れていることが多いです。とはいえ、視覚プロンプトによる検出に関する研究は大きく見過ごされており、通常はテキストプロンプト検出器の学習の副産物として扱われ、そのことが発展を妨げています。視覚プロンプト検出の可能性を最大限に引き出すために、我々はその性能が最適でない理由を調査し、根本的な問題が視覚プロンプトにおけるグローバルな弁別可能性の欠如にあることを明らかにします。これらの観察に動機づけられ、クラスを区別できる視覚プロンプトを生成する頑健なオブジェクト検出フレームワーク DETR-ViP を提案します。基本的な画像-テキストのコントラスト学習に加えて、DETR-ViP は、グローバルなプロンプト統合と、視覚-テキストのプロンプト関係の蒸留を取り入れることで、より識別的なプロンプト表現を学習します。さらに、DETR-ViP は選択的融合戦略を採用することで、安定かつ頑健な検出を保証します。COCO、LVIS、ODinW、Roboflow100 に関する大規模な実験により、DETR-ViP は他の最先端手法と比べて視覚プロンプト検出において大幅に高い性能を達成することが示されます。一連のアブレーション研究および分析は、提案した改善の有効性をさらに検証するとともに、視覚プロンプトが強化された検出能力を示す根本的な理由を明らかにします。