ロボット統合によるスケーラブルな「未知物体の6DoF絶対姿勢推定」

arXiv cs.RO / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

要点

  • 本論文は、CADモデルや未知物体の密な参照ビューが得られない状況で既存手法が抱える、未知物体に対する6DoF絶対姿勢推定のスケーラビリティ問題に取り組みます。
  • SinRef-6Dを提案し、ロボットマニピュレーション中に取得した「姿勢ラベル付きの単一参照RGB-D画像」だけで未知物体の6DoF姿勢を推定します。
  • 大きな姿勢差と単一視点による限られた情報に対処するため、共通座標系での点ごとのアラインメントを反復的に行い、PointおよびRGBのSSM(State Space Model)バックボーンで長距離の空間依存を扱います。線形計算量で優れた空間モデリング能力を示します。
  • 合成データで事前学習した後、SinRef-6Dは単一参照ビューのみから6DoF絶対姿勢推定を実現し、さらにハードウェア・ソフトウェア一体型のロボットシステムへ統合して現実環境で検証します。
  • 6つのベンチマークと多様な現実シナリオでの広範な実験により、SinRef-6Dのスケーラブルな性能が示され、ロボット把持の追加実験でも実用面での有効性が裏付けられています。

Abstract

観測されていない物体に対する、姿勢推定に導かれた6自由度(6-DoF)ロボットによる操作は、ロボティクスにおける重要な課題である。しかし、現在の姿勢推定手法が未観測の物体へどこまでスケールできるかは、根本的な挑戦として残っている。なぜなら、これらの手法は一般にCADモデルや、未観測物体のための密な参照ビューに依存しており、それらは取得が困難であり、結果としてスケーラビリティを最終的に制限してしまうからである。本論文では、SinRef-6Dと呼ぶ新しいタスク設定を提案する。この設定は、ロボット操作中に取得した、単一の姿勢ラベル付き参照RGB-D画像のみを用いて、未観測物体のための6-DoF絶対姿勢推定を扱う。これはよりスケーラブルである一方、大きな姿勢の不一致と、単一ビューに含まれる限られた幾何学的・空間的情報のために技術的に非自明である。これらの課題に対処するための我々の主要なアイデアは、状態空間モデル(SSM)をバックボーンとして、共通座標系上で点単位のアラインメントを逐次的に確立することである。具体的には、大きな姿勢の不一致を扱うために、物体空間における点単位のアラインメントを反復的に行う戦略を導入する。さらに、単一ビューから長距離の空間依存を捉えるために、Point SSMとRGB SSMを提案する。これらは、線形計算量で優れた空間モデリング能力を提供する。合成データで事前学習した後、SinRef-6Dは、単一の参照ビューのみを用いて未観測物体の6-DoF絶対姿勢を推定できる。推定された姿勢を用いて、我々はさらにハードウェア・ソフトウェアのロボットシステムを開発し、提案したSinRef-6Dを実環境で統合する。6つのベンチマークと多様な実世界シナリオに対する大規模な実験により、我々のSinRef-6Dが優れたスケーラビリティを提供することが示される。加えて、ロボットによる把持(グラスピング)に関する追加実験によって、開発したロボットシステムの有効性がさらに検証される。コードおよびロボットデモは https://paperreview99.github.io/SinRef-6DoF-Robotic で利用可能である。