Pandora：自己視点映像から構築する関節構造付き3Dシーングラフ

arXiv cs.RO / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボットの自己センシングマップに典型的に見られる死角を減らすために、自己視点（ファーストパーソン）動画データを用いて関節構造付き3Dシーングラフを構築する手法「Pandora」を提案する。
Project Ariaのグラスを用いて人間が探索した際の知識を転移し、関節構造を持つ物体の部品モデルを復元することで、他のモダリティを用いた最先端手法と同等の品質を実現する。
この手法では、復元した関節構造付きの物体部品モデルを3Dシーングラフ表現へ統合し、物体のダイナミクスや「物体—容器」関係をより適切に捉える。
著者らは、得られた3Dシーングラフのみを入力として用いて、Boston DynamicsのSpotが隠された物品を回収できることを示すことで、実用面での効果を実証する。

概要: ロボティックなマッピングシステムは通常、ロボット自身のセンサーやカメラから得た情報を用いて、建物内のメトリック—セマンティックなシーン表現を構築します。しかし、これらの「一人称」マップは、ロボットの身体性やスキルセットに由来する制約を引き継いでしまい、環境の多くの側面が未探索のまま残る可能性があります。例えば、ロボットは引き出しを開けられない、あるいは壁面キャビネットにアクセスできないかもしれません。この意味で、地図表現はそれほど完全ではなく、不足分を埋めるにはより能力の高いロボットが必要になります。私たちは、Project Aria のグラスを着用した人間が自然にシーンを探索しているときに収集される一人称データを活用することで、現在の手法におけるこれらの死角を狭めます。これにより、人間から、任意に展開可能なロボットへと関節運動（アーティキュレーション）に関する知識を直接移す道が開けます。私たちは、単純なヒューリスティックを用いることで、一人称データから、アーティキュレートな対象物の部品のモデルを復元でき、その品質が、他の入力モダリティに基づく最先端手法と同等であることを示します。また、これらのモデルを3Dシーングラフ表現に統合する方法も示し、対象物のダイナミクスや「対象物—コンテナ」関係の理解をより深められることを示します。最後に、これらのアーティキュレートな3Dシーングラフが、ロボットのモバイルマニピュレーション（移動しながらの操作）タスクの実行能力を高めることを実証し、Boston Dynamics の Spot に対して、入力として3Dシーングラフのみが与えられる状況で、隠されたターゲット物品の回収を任せる応用例を示します。