逆運動学を用いた視覚ベースの手影模倣によるロボット操作

arXiv cs.AI / 2026/3/13

💬 オピニオンTools & Practical UsageModels & Research

要点

  • 本論文は、3Dプリントされたメガネに搭載された単一の自己視点RGB-Dカメラを用い、PyBulletにて逆運動学を介して6自由度ロボットを制御するオフラインの手影模倣とリターゲティングのパイプラインを提示する。
  • MediaPipe Handsを用いて各手につき21個の手のランドマークを検出し、3D手ポーズを再構成してロボット座標系に変換し、減衰付き最小二乗法の逆運動学問題を解いてSO-ARM101の関節指令を生成する。
  • 母指と人指の幾何を把持開口幅に対応づける4段階のフォールバック階層を持つグリッパー制御を用い、アクションを物理シミュレーションで事前にプレビューした後、LeRobotフレームワークを通して実機ロボットへリプレイする。
  • 評価では、構造化されたピックアンドプレースのベンチマークで90%の成功率を達成する一方、遮蔽を伴う実世界の非構造化環境では成功率が9.3%に低下し、マーカーフリーの解析的リターゲティングの可能性と現在の限界を示している。
  • 本研究は、遠隔操作のための視覚ベースのリターゲティングの可能性を強調する一方、遮蔽や環境の乱雑さといった課題が堅牢な性能の達成を難しくしていることを示唆している。

Abstract

低コストのロボットマニピュレータの遠隔操作は、人間の手の関節運動をロボットの関節コマンドへ写像する複雑さのため、依然として難しい。私たちは、3Dプリントされたメガネに搭載された単一の自己視点RGB-Dカメラからのオフラインの手影模倣とリターゲティングパイプラインを提示する。パイプラインは、MediaPipe Handsを用いて各手の21個のランドマークを検出し、深度センサを用いて3Dへ再構成し、ロボット座標系へ変換し、PyBulletで減衰付き最小二乗法逆運動学問題を解いて6-DOFのSO-ARM101ロボットの関節コマンドを生成する。グリッパーコントローラは、母指と人指の幾何を把持開口幅へ対応づける4段階のフォールバック階層を用いる。アクションはまず物理シミュレーションでプレビューされ、その後LeRobotフレームワークを通じて実機ロボットへリプレイされる。私たちは、構造化されたピックアンドプレースベンチマーク(5タイルのグリッド、タイルごとに10回の把持)でIKリターゲティングパイプラインを評価し、成功率90%を達成した。また、リーダー-フォロワー遠隔操作データで訓練された4つのビジョン-言語-アクションポリシー(ACT、SmolVLA、pi0.5、GR00T N1.5)と比較した。さらに、未構造な実世界環境(食料品店、薬局)でIKパイプラインをテストしたところ、周囲の物体による手の遮蔽が成功率を9.3%に低下させた(N=75)。これにより、マーカーフリーの解析的リターゲティングの可能性と現在の制約の両方が浮き彫りとなっている。