AI Navigate

プロトタイプ的意味論と幾何学的整合性による部位認識型オープンボキャブラリ3Dアフォーダンスグラウンディング

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • 本論文は、意味論的および幾何学的整合性を向上させることを目的とした、オープンボキャブラリ3Dアフォーダンスグラウンディングのための2段階のクロスモーダルフレームワークを提案する。
  • ステージ1では、大規模言語モデルを用いて部位認識に基づく指示を生成し、欠落している意味論を回復させ、意味的に類似したアフォーダンスを結びつける。
  • ステージ2では、オブジェクト間の幾何学的一貫性のためのアフォーダンス・プロトタイプ集約(APA)と、同一オブジェクト内のジオメトリを精緻化して厳密な意味論的整合を支援するオブジェクト内関係モデリング(IORM)を導入する。
  • 新規ベンチマークと既存の2つのベンチマークにおけるロバストな実験は、既存手法と比較して優れた性能を示す。

要約: 自然言語の質問を、3Dオブジェクト内の機能的に関連する領域へ結びつけること――これを言語駆動型3Dアフォーダンス・グラウンディングと呼ぶ――は、具現化された知能と人間とAIの相互作用に不可欠である。従来の手法はラベルベースから言語駆動型アプローチへと進化してきたが、オープンボキャブラリ一般化、細粒度な幾何学的整合性、部品レベルの意味的一貫性の課題に依然直面している。これらの課題に対処するため、オープンボキャブラリの3Dアフォーダンス・グラウンディングに対して、意味的表現と幾何学的表現の双方を向上させる新規の二段階クロスモーダルフレームワークを提案する。第一段階では、大規模言語モデルが部品対応の指示を生成して欠落している意味情報を回復し、意味的に類似するアフォーダンスを結びつけられるようにする。第二段階では、2つの重要な要素を導入する。アフォーダンス・プロトタイプ集約(APA)、各アフォーダンスのオブジェクト間の幾何的整合性を捉えるもの、及びオブジェクト内部の幾何的分化を洗練させて正確な意味的整合を支える、オブジェクト内関係モデリング(IORM)。新たに導入されたベンチマークと、既存の2つのベンチマークに対して広範な実験を行い、既存手法と比較して優れた性能を示すことで、我々の手法の有効性を検証する。