DEGround：均一なフレームワークによるエゴセントリック3Dビジュアルグラウンディングの効果的なベースライン

arXiv cs.CV / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、検出とグラウンディングを別モデルで行う2段階のヘテロジニアスな手法が多い、エゴセントリック3Dビジュアルグラウンディングを扱う。
DEGroundは、共通のクエリを「検出」と「グラウンディング」の両方で使うことでオブジェクトレベルの表現を共有し、同一のトランスフォーマーとバウンディングボックスヘッドでデコードする均一な枠組みを提案する。
命令に応じたきめ細かなグラウンディングを高めるために、Regional Activation Grounding（空間とテキストの整合を強化）と、Query-wise Modulation（文に条件付けしたクエリ初期化）という2つのプラグインモジュールを追加する。
複数ベンチマークでの実験により、DEGroundは最先端の性能を示し、EmbodiedScanデータセットでは先行手法に対して全体精度で7.52%の大幅な改善を達成する。

Abstract

身体性のある知能における中核的な課題は、自己中心的な3D視覚グラウンディングです。既存の手法は通常、検出器と別個のグラウンディングモデルを組み合わせる、二段階の異種パイプラインを採用しています。しかし、互換性のないデコーダやボックスヘッドは、対象（オブジェクト）レベルの事前知識の転移を妨げ、分割された学習は冗長な再最適化を引き起こします。これらの制限を克服するために、我々はDEGroundという、まっすぐで簡潔かつ効果的なフレームワークを提案します。DEGroundは、検出とグラウンディングよりも対象（オブジェクト）レベルの共有に中心を置いています。これは、一連のクエリを、検出とグラウンディングの双方に共通する対象（オブジェクト）表現として用い、それを共有トランスフォーマとバウンディングボックスヘッドでデコードします。この均質なフレームワークを土台として、きめ細かな指示（インストラクション）グラウンディングを強化するための、タスク固有の2つのプラグインモジュールもさらに導入します。Regional Activation Groundingモジュールは、指示に関連する領域を強調することで、空間とテキストの対応付けを改善します。一方、Query-wise Modulationモジュールは、初期化時に文に条件づけられたアフィン変調を適用し、指示を理解したクエリを生成します。広範な実験の結果、DEGroundは複数のベンチマークで最良の性能を達成することが示されました。さらに注目すべきことに、EmbodiedScanデータセットにおける総合的な精度で、従来手法を7.52%大幅に上回ります。