VoxAfford:マルチスケール・ボクセルトークン融合によるオープン語彙3Dアフォーダンス検出
arXiv cs.CV / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、未知のアフォーダンス記述を用いてポイントクラウド上で相互作用領域を特定する「オープン語彙3Dアフォーダンス検出」に取り組む。
- 先行研究では、特殊な出力トークンを自己回帰的に生成することで意味は得られる一方、空間近傍関係を捉えにくく、3D位置推定の精度が弱くなると指摘している。
- VoxAffordは、生成後の出力トークンに対し、事前学習済みの3D VQ-VAEエンコーダからマルチスケールの幾何特徴をクロスアテンションで注入し、学習されたゲーティングで注入の強さを制御することでこのボトルネックを回避する。
- 強化されたトークンは、意味に条件付けされたアテンションで空間対応のアフォーダンス・プロンプトに集約され、点ごとの特徴とともに伝播して最終マスクを生成する。
- 実験ではmIoUが約8%改善し、ロボット実機でも未知物体へのゼロショット転移が確認されるなど、最先端性能を報告している。