CompassAD:意図駆動型の3Dアフォーダンス基盤化—機能的に競合する物体における
arXiv cs.RO / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「紛らわしい(confusable)」複数物体シーンに焦点を当てた新しい3Dアフォーダンスのベンチマーク設定であるCompassADを提案する。そこでは、複数の物体が同じアフォーダンスを共有している一方で、命令文脈に適合するのはそのうちの1つだけである(例:「りんごを切れ」という指示では、はさみではなくナイフを選ぶ)。
- 意図駆動型の指示に基づくMulti-Object Affordance Groundingを定式化し、散らかった点群の中で、正しい物体に対する点ごとのアフォーダンスマスクを要求する。さらに、それは暗黙の自然言語による意図に条件付けられる。
- データセットは、16種類のアフォーダンスにまたがる30組の紛らわしい物体ペアを対象とし、6,422シーンおよび88K超のクエリ・応答ペアを収録している。これらは明示的なカテゴリ名ではなく、暗黙の意図を対象に特化して設計されている。
- 提案手法のCompassNetは2つのモジュールを用いる。第一に、Instance-bounded Cross Injection(物体境界をまたいだ言語と幾何の「漏れ(leakage)」を防ぐ)。第二に、Bi-level Contrastive Refinement(物体グループレベルと点レベルの両方で弁別性を鋭くする)。
- 実験結果は、見えているクエリと見えていないクエリの両方で強い性能を示す。さらに、マニピュレータによる実ロボットへのデプロイにより、紛らわしい複数物体シーンにおける実世界での把持(グラスピング)への効果的な転移が確認される。




