AI Navigate

VirPro: 視覚参照型確率的プロンプト学習による弱教師ありモノキュラー3D検出

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • VirProは、視覚的手掛かりと学習可能なテキストプロンプトを組み合わせた、弱教師ありモノキュラー3D検出のためのマルチモーダル事前学習パラダイム(Visual-referred Probabilistic Prompt Learning)を提案します。
  • この手法は、Adaptive Prompt Bank(APB)を用いてインスタンス条件付きのプロンプトを格納し、Multi-Gaussian Prompt Modeling(MGPM)を用いてシーンベースの視覚特徴をテキスト埋め込みに注入して、視覚的不確実性を捉えます。
  • RoIレベルのコントラスト学習マッチング戦略を採用し、視覚と言語の埋め込みを整合させ、同一シーン内で共起する物体間の意味的整合性を高めます。
  • KITTIベンチマークでの実験は一貫した性能向上を示し、ベースラインに対して最大で4.8%の平均精度(AP)を改善しました。
  • 本研究は、確率的でシーンを考慮したプロンプトを活用することで、現実世界のシーンにおける視覚的多様性をより適切にモデル化する、弱教師あり3D検出の新たな方向性を提案します。

概要:単眼3D物体検出は通常、実世界のアノテーションへの依存を減らすために疑似ラベリング技術に依存します。最近の進歩は、決定論的な言語的手掛かりが有効な補助的弱教師信号として機能し、補完的な意味的文脈を提供できることを示しています。しかし、手作りのテキスト記述は、シーン間の個々の視覚的多様性を本質的に捉えるのが難しく、モデルがシーン認識に基づく表現を学習する能力を制限します。これに対処するために、Visual-referred Probabilistic Prompt Learning (VirPro) を提案します。これは、適応的なマルチモーダル事前学習パラダイムであり、さまざまな弱教師付き単眼3D検出フレームワークにシームレスに統合できます。具体的には、シーン全体にわたる多様な学習可能なインスタンス条件付きプロンプトを生成し、それらを Adaptive Prompt Bank (APB) に格納します。次に、Multi-Gaussian Prompt Modeling (MGPM) を導入します。これは、シーンベースの視覚特徴を対応するテキスト埋め込みに組み込み、テキストプロンプトが視覚的不確実性を表現できるようにします。次に、結合された視覚・言語埋め込みから、プロンプトを対象としたガウス分布をデコードし、それから各インスタンスの統一されたオブジェクトレベルのプロンプト埋め込みを導出します。RoIレベルの対照的マッチングを用いてモダリティ間の整合性を確保し、同一シーン内で同時に出現する物体の埋め込みを潜在空間で近づけ、意味的整合性を高めます。KITTIベンチマークでの広範な実験は、我々の事前学習パラダイムを統合することで一貫して顕著な性能向上をもたらすことを示し、ベースラインより最大で4.8%の平均精度向上を達成します。