視覚スケール変動と攪乱下でのリアルタイムモバイルマニピュレーションに向けたステレオ多段空間注意機構

arXiv cs.RO / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボットが移動中にカメラの視点が連続的に変わることによって生じる視覚スケールの変動にも対応し、リアルタイムなモバイルマニピュレーションを可能にするステレオ多段空間注意に基づく深層予測学習手法を提案しています。
  • ステレオ画像からタスクに関係する空間注意点を抽出し、階層型リカレント構造を用いてロボット状態情報と統合することで、閉ループの行動を予測します。
  • モバイルマニピュレータを用いて、剛体の配置、関節物体の操作、変形物体の相互作用を含む4つの実世界タスクで評価を行っています。
  • 初期位置をランダム化し、視覚的な攪乱条件も加えた実験では、同一の制御設定下で模倣学習や視覚言語行動のベースラインよりも、頑健性とタスク成功率が向上したことを示しています。
  • 総じて、構造化されたステレオ空間注意と予測的な時間モデリングの組み合わせが、モバイルマニピュレーションにおけるスケール変動と攪乱への効果的な解決策になると結論づけています。