DEGround:均一なフレームワークによるエゴセントリック3Dビジュアルグラウンディングの効果的なベースライン

arXiv cs.CV / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、検出とグラウンディングを別モデルで行う2段階のヘテロジニアスな手法が多い、エゴセントリック3Dビジュアルグラウンディングを扱う。
  • DEGroundは、共通のクエリを「検出」と「グラウンディング」の両方で使うことでオブジェクトレベルの表現を共有し、同一のトランスフォーマーとバウンディングボックスヘッドでデコードする均一な枠組みを提案する。
  • 命令に応じたきめ細かなグラウンディングを高めるために、Regional Activation Grounding(空間とテキストの整合を強化)と、Query-wise Modulation(文に条件付けしたクエリ初期化)という2つのプラグインモジュールを追加する。
  • 複数ベンチマークでの実験により、DEGroundは最先端の性能を示し、EmbodiedScanデータセットでは先行手法に対して全体精度で7.52%の大幅な改善を達成する。

Abstract

身体性のある知能における中核的な課題は、自己中心的な3D視覚グラウンディングです。既存の手法は通常、検出器と別個のグラウンディングモデルを組み合わせる、二段階の異種パイプラインを採用しています。しかし、互換性のないデコーダやボックスヘッドは、対象(オブジェクト)レベルの事前知識の転移を妨げ、分割された学習は冗長な再最適化を引き起こします。これらの制限を克服するために、我々はDEGroundという、まっすぐで簡潔かつ効果的なフレームワークを提案します。DEGroundは、検出とグラウンディングよりも対象(オブジェクト)レベルの共有に中心を置いています。これは、一連のクエリを、検出とグラウンディングの双方に共通する対象(オブジェクト)表現として用い、それを共有トランスフォーマとバウンディングボックスヘッドでデコードします。この均質なフレームワークを土台として、きめ細かな指示(インストラクション)グラウンディングを強化するための、タスク固有の2つのプラグインモジュールもさらに導入します。Regional Activation Groundingモジュールは、指示に関連する領域を強調することで、空間とテキストの対応付けを改善します。一方、Query-wise Modulationモジュールは、初期化時に文に条件づけられたアフィン変調を適用し、指示を理解したクエリを生成します。広範な実験の結果、DEGroundは複数のベンチマークで最良の性能を達成することが示されました。さらに注目すべきことに、EmbodiedScanデータセットにおける総合的な精度で、従来手法を7.52%大幅に上回ります。