VLMガイド付き意味幾何学的推論によるタスク対応型の両腕アフォーダンス予測

arXiv cs.RO / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、両腕による操作を、アフォーダンスのローカライズ(どこで接触するか)とアーム割り当て(どの腕が何を行うか)を同時に解くことで扱い、幾何学のみの計画ではタスクのセマンティクスが欠落すると主張する。
  • 階層的でタスク対応型のアフォーダンス予測フレームワークを提案し、Vision-Language Model(VLM)を用いて、タスクに関連する接触領域を意味論的に絞り込み、カテゴリー固有の学習なしにアーム割り当てを含めて推論する。
  • この手法は、複数視点のRGB-D観測を整合した3D表現に統合し、グローバルな6-DoF把持候補を生成した後、VLMガイドによる意味幾何学的推論を適用して、結果が幾何学的に妥当でありつつ意味論的にも適切であることを両立させる。
  • 9つの実世界タスクにわたるデュアルアームロボットでの実験(並列操作、安定化、道具の使用、人へのハンドオーバーを含む)では、タスク指向の把持において、幾何学ベースおよび意味ベースのベースラインよりも高いタスク成功率が示される。
  • 本アプローチは、意味推論をアフォーダンスと割り当てのパイプラインの明示的な一部として組み込むことで、非構造化環境における両腕操作の信頼性を向上させるものとして提示される。