RoboTAG:トポロジカル整合グラフによるエンドツーエンドのロボット設定推定

arXiv cs.RO / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • RoboTAGは、単眼RGB画像からロボットのポーズ(設定推定)を行うためのエンドツーエンド手法として提案され、2D特徴中心の既存研究の限界に対処します。
  • 2Dと3Dの両方の表現を同時に学習させるために、RoboTAGは3Dブランチと2Dブランチから構成され、カメラ/ロボット状態をノード、変数間の依存関係や整合をエッジとして表現します。
  • グラフ上でクローズドループを定義し、ブランチ間の整合性(consistency)を用いた監督を与えることで、ラベル依存を軽減しつつsim-to-realギャップの緩和を狙います。
  • 3Dプリオルを3Dブランチで注入することで、問題を2Dへ単純化してしまう従来アプローチの欠点を補い、ロボットの種類をまたいで有効性が示されたと報告されています。