AffordSim:アフォーダンスを考慮したロボット操作のための、スケーラブルなデータ生成器およびベンチマーク

arXiv cs.RO / 2026/4/14

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • AffordSimは、オブジェクトのアフォーダンス情報を用いて操作の軌跡(マニピュレーション・トラジェクトリ)を生成する新しいシミュレーション・フレームワークであり、ハンドル把持、正確な注ぎ、マグの吊り下げのような意味論的に正しい相互作用を可能にします。
  • 著者らのVoxAffordモデルによるオープンボキャブラリの3Dアフォーダンス予測を統合し、オブジェクトの点群上にアフォーダンス・マップを生成します。そして、このマップを用いて、把持姿勢推定をタスクに関連する機能領域へと誘導します。
  • AffordSimはNVIDIA Isaac Sim上で実装されており、ロボット間でのクロス・エンボディメント対応(例:Franka FR3、Panda、UR5e、Kinova)、VLMによるタスク生成、ならびに実写写真からのDA3スタイルの3Dガウス再構成に基づくドメイン・ランダム化を備えています。
  • 本論文では、7カテゴリにまたがる50タスクのベンチマークを提示し、模倣学習のベースライン(BC、Diffusion Policy、ACT、Pi 0.5)を評価します。その結果、アフォーダンスを重視するタスク(注ぎ、マグの吊り下げ)は、把持に比べて成功率が大幅に低いことが分かります。
  • 実機のFranka FR3を用いたゼロショットのsim-to-real実験により、アフォーダンスを考慮して生成されたデータがシミュレーションを超えて効果的に転移することが示唆されます。