VoxAfford:マルチスケール・ボクセルトークン融合によるオープン語彙3Dアフォーダンス検出

arXiv cs.CV / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、未知のアフォーダンス記述を用いてポイントクラウド上で相互作用領域を特定する「オープン語彙3Dアフォーダンス検出」に取り組む。
  • 先行研究では、特殊な出力トークンを自己回帰的に生成することで意味は得られる一方、空間近傍関係を捉えにくく、3D位置推定の精度が弱くなると指摘している。
  • VoxAffordは、生成後の出力トークンに対し、事前学習済みの3D VQ-VAEエンコーダからマルチスケールの幾何特徴をクロスアテンションで注入し、学習されたゲーティングで注入の強さを制御することでこのボトルネックを回避する。
  • 強化されたトークンは、意味に条件付けされたアテンションで空間対応のアフォーダンス・プロンプトに集約され、点ごとの特徴とともに伝播して最終マスクを生成する。
  • 実験ではmIoUが約8%改善し、ロボット実機でも未知物体へのゼロショット転移が確認されるなど、最先端性能を報告している。

Abstract

オープンボキャブラリの3Dアフォーダンス検出では、未知のアフォーダンス記述が与えられた状況で、点群上の相互作用領域を局所化することが必要です。最近の手法では、多モーダルの大規模言語モデル(MLLM)を、セグメンテーションマスクに復号される特別な出力トークンで拡張しています。しかし、これらのトークンは自己回帰的生成によって作られるため、空間的な近傍関係ではなく逐次的な依存関係をモデル化しており、その結果、意味的には豊かである一方で、3D局所化に必要な空間情報は乏しい状態になります。私たちは、このボトルネックを回避するVoxel-enhanced Affordance detection(VoxAfford)を提案します。具体的には、生成後に、凍結済みの事前学習済み3D VQVAEエンコーダからのマルチスケール幾何学的特徴を出力トークンへ注入します。各出力トークンは、そのアフォーダンスの意味をクエリとして用い、対応するボクセルのスケールからクロスアテンションによって関連する幾何学パターンを取得し、注入の強さを制御する学習済みの適合性ゲートを介して特徴注入を行います。その後、強化されたトークンは、意味に条件付けされたアテンションによって空間を意識したアフォーダンス・プロンプトに集約され、点ごとの特徴とともに伝播されて最終的なマスクが生成されます。オープンボキャブラリのアフォーダンス検出タスクでの実験により、VoxAffordは約8%のmIoU向上を達成し、最先端の性能を実現することが示されました。また、実ロボットでの実験により、新規の対象物に対するゼロショット転移が確認されています。