CompassAD：意図駆動型の3Dアフォーダンス基盤化—機能的に競合する物体における

arXiv cs.RO / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「紛らわしい（confusable）」複数物体シーンに焦点を当てた新しい3Dアフォーダンスのベンチマーク設定であるCompassADを提案する。そこでは、複数の物体が同じアフォーダンスを共有している一方で、命令文脈に適合するのはそのうちの1つだけである（例：「りんごを切れ」という指示では、はさみではなくナイフを選ぶ）。
意図駆動型の指示に基づくMulti-Object Affordance Groundingを定式化し、散らかった点群の中で、正しい物体に対する点ごとのアフォーダンスマスクを要求する。さらに、それは暗黙の自然言語による意図に条件付けられる。
データセットは、16種類のアフォーダンスにまたがる30組の紛らわしい物体ペアを対象とし、6,422シーンおよび88K超のクエリ・応答ペアを収録している。これらは明示的なカテゴリ名ではなく、暗黙の意図を対象に特化して設計されている。
提案手法のCompassNetは2つのモジュールを用いる。第一に、Instance-bounded Cross Injection（物体境界をまたいだ言語と幾何の「漏れ（leakage）」を防ぐ）。第二に、Bi-level Contrastive Refinement（物体グループレベルと点レベルの両方で弁別性を鋭くする）。
実験結果は、見えているクエリと見えていないクエリの両方で強い性能を示す。さらに、マニピュレータによる実ロボットへのデプロイにより、紛らわしい複数物体シーンにおける実世界での把持（グラスピング）への効果的な転移が確認される。

Abstract

「りんごを切れ」と指示されたとき、ロボットは近くのはさみではなくナイフを選ばなければならない。これは、どちらの物体も同じ切断機能を提供しているにもかかわらずである。実世界のシーンでは、複数の物体が同一のアフォーダンスを共有することがありうるが、与えられたタスクの文脈のもとで適切なのはただ一つの物体である。このような状況を紛らわしいペアと呼ぶ。しかし、既存の3Dアフォーダンス手法は概ねこの課題を回避しており、しばしば、クエリに明示的なカテゴリ名が与えられる中で、孤立した単一物体を評価することで済ませている。私たちは、「意図に基づく指示」によるMulti-Object Affordance Grounding（複数物体アフォーダンスの位置特定）を形式化する。これは、新しい3Dアフォーダンスの設定であり、暗黙の自然言語による意図に条件付けられた、雑然とした複数物体の点群の中で、正しい物体上の1点ごとのアフォーダンスマスクを予測することを要求する。この問題を研究するために、紛らわしい複数物体シーンにおける暗黙の意図を中心に据えた最初のベンチマークであるCompassADを構築する。CompassADは、16種類のアフォーダンスにまたがる30の紛らわしい物体ペア、6,422シーン、そして88K+のクエリ・回答ペアで構成される。さらに、このタスクに特化した2つの専用モジュールを組み込む枠組みCompassNetを提案する。Instance-bounded Cross Injection（ICI）は、物体境界内における言語-幾何整合を制約し、物体をまたいだ意味の漏れ（クロスオブジェクトのセマンティックリーク）を防ぐ。Bi-level Contrastive Refinement（BCR）は、幾何学的グループレベルと点レベルの両方で識別性を強制し、ターゲットと紛らわしい表面の差異をより鮮明にする。大規模な実験により、見たことのあるクエリと見ていないクエリの両方で最先端の結果が示され、ロボットマニピュレータへの実装により、紛らわしい複数物体シーンにおける実世界の把持（グラスピング）へ効果的に転移できることが確認される。

Black Hat Asia

AI Business

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

日経XTECH

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

日経XTECH

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

Tech.eu

ChatGPTは月額20ドル。代替を2.99ドルで作った。

Dev.to

CompassAD：意図駆動型の3Dアフォーダンス基盤化—機能的に競合する物体における

要点

Abstract

関連記事

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

ChatGPTは月額20ドル。代替を2.99ドルで作った。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

エヌビディア、「脱・GPU一本足」へ 推論特化チップ「Groq 3 LPU」発表

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

ChatGPTは月額20ドル。代替を2.99ドルで作った。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表