CompassAD:意図駆動型の3Dアフォーダンス基盤化—機能的に競合する物体における

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「紛らわしい(confusable)」複数物体シーンに焦点を当てた新しい3Dアフォーダンスのベンチマーク設定であるCompassADを提案する。そこでは、複数の物体が同じアフォーダンスを共有している一方で、命令文脈に適合するのはそのうちの1つだけである(例:「りんごを切れ」という指示では、はさみではなくナイフを選ぶ)。
  • 意図駆動型の指示に基づくMulti-Object Affordance Groundingを定式化し、散らかった点群の中で、正しい物体に対する点ごとのアフォーダンスマスクを要求する。さらに、それは暗黙の自然言語による意図に条件付けられる。
  • データセットは、16種類のアフォーダンスにまたがる30組の紛らわしい物体ペアを対象とし、6,422シーンおよび88K超のクエリ・応答ペアを収録している。これらは明示的なカテゴリ名ではなく、暗黙の意図を対象に特化して設計されている。
  • 提案手法のCompassNetは2つのモジュールを用いる。第一に、Instance-bounded Cross Injection(物体境界をまたいだ言語と幾何の「漏れ(leakage)」を防ぐ)。第二に、Bi-level Contrastive Refinement(物体グループレベルと点レベルの両方で弁別性を鋭くする)。
  • 実験結果は、見えているクエリと見えていないクエリの両方で強い性能を示す。さらに、マニピュレータによる実ロボットへのデプロイにより、紛らわしい複数物体シーンにおける実世界での把持(グラスピング)への効果的な転移が確認される。

Abstract

「りんごを切れ」と指示されたとき、ロボットは近くのはさみではなくナイフを選ばなければならない。これは、どちらの物体も同じ切断機能を提供しているにもかかわらずである。実世界のシーンでは、複数の物体が同一のアフォーダンスを共有することがありうるが、与えられたタスクの文脈のもとで適切なのはただ一つの物体である。このような状況を紛らわしいペアと呼ぶ。しかし、既存の3Dアフォーダンス手法は概ねこの課題を回避しており、しばしば、クエリに明示的なカテゴリ名が与えられる中で、孤立した単一物体を評価することで済ませている。私たちは、「意図に基づく指示」によるMulti-Object Affordance Grounding(複数物体アフォーダンスの位置特定)を形式化する。これは、新しい3Dアフォーダンスの設定であり、暗黙の自然言語による意図に条件付けられた、雑然とした複数物体の点群の中で、正しい物体上の1点ごとのアフォーダンスマスクを予測することを要求する。この問題を研究するために、紛らわしい複数物体シーンにおける暗黙の意図を中心に据えた最初のベンチマークであるCompassADを構築する。CompassADは、16種類のアフォーダンスにまたがる30の紛らわしい物体ペア、6,422シーン、そして88K+のクエリ・回答ペアで構成される。さらに、このタスクに特化した2つの専用モジュールを組み込む枠組みCompassNetを提案する。Instance-bounded Cross Injection(ICI)は、物体境界内における言語-幾何整合を制約し、物体をまたいだ意味の漏れ(クロスオブジェクトのセマンティックリーク)を防ぐ。Bi-level Contrastive Refinement(BCR)は、幾何学的グループレベルと点レベルの両方で識別性を強制し、ターゲットと紛らわしい表面の差異をより鮮明にする。大規模な実験により、見たことのあるクエリと見ていないクエリの両方で最先端の結果が示され、ロボットマニピュレータへの実装により、紛らわしい複数物体シーンにおける実世界の把持(グラスピング)へ効果的に転移できることが確認される。