DEGround:均一なフレームワークによるエゴセントリック3Dビジュアルグラウンディングの効果的なベースライン
arXiv cs.CV / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、検出とグラウンディングを別モデルで行う2段階のヘテロジニアスな手法が多い、エゴセントリック3Dビジュアルグラウンディングを扱う。
- DEGroundは、共通のクエリを「検出」と「グラウンディング」の両方で使うことでオブジェクトレベルの表現を共有し、同一のトランスフォーマーとバウンディングボックスヘッドでデコードする均一な枠組みを提案する。
- 命令に応じたきめ細かなグラウンディングを高めるために、Regional Activation Grounding(空間とテキストの整合を強化)と、Query-wise Modulation(文に条件付けしたクエリ初期化)という2つのプラグインモジュールを追加する。
- 複数ベンチマークでの実験により、DEGroundは最先端の性能を示し、EmbodiedScanデータセットでは先行手法に対して全体精度で7.52%の大幅な改善を達成する。




