ROPA：RGB-D バイマニュアル・データ拡張のための合成ロボット姿勢生成

arXiv cs.RO / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ROPＡを提案する。これはオフラインの模倣学習によるデータ拡張手法であり、Stable Diffusion を微調整して、バイマニュアル操作のために、未知のロボット姿勢における第三者視点（エイ・トゥ・ハンド）の RGB および RGB-D 観測を合成する。
さらに ROPA は、対応する関節空間のアクションラベルも生成し、把持器（グリッパ）から対象物への接触制約を用いた制約付き最適化によって、合成されたロボット—物体間の相互作用が物理的に整合していることを維持する。
シミュレーション 5 種類および実環境 3 種類のバイマニュアルタスク（シミュレーション 2625 試行、実環境 300 試行）での実験により、ROPA はベースラインおよびアブレーション手法よりも優れていることが示される。
本研究は、スケーラビリティ上の重要なギャップに焦点を当てている。すなわち、RGB-D の模倣学習における姿勢・シーンのカバレッジを改善しつつ、精密で多様な実演データを収集する高コストな工程を回避することである。
提案する拡張アプローチのコードおよびリソースを共有するためのプロジェクトWebサイトが提供されている。

抽象: 相互の両手による堅牢なマニピュレーション方策を模倣学習で訓練するには、ロボットの姿勢、接触、そしてシーン文脈にわたって幅広くカバーしたデモンストレーションデータが必要です。しかし、多様でかつ精密な実世界デモンストレーションを収集するのは費用がかかり、時間もかかるため、スケーラビリティを妨げます。先行研究では、データ拡張によってこの問題に対処してきましたが、典型的には、RGB入力を用いるアイ・イン・ハンド（手首カメラ）構成に対するもの、あるいは対応する行動ラベルなしで新しい画像を生成するものに限られており、アイ・トゥ・ハンド（第三者視点）のRGB-D訓練において、新しい行動ラベルを伴う拡張はあまり検討されていません。本論文では、RGB-D両手データ拡張のための合成ロボット姿勢生成（ROPA）を提案します。ROPAは、オフライン模倣学習のデータ拡張手法であり、Stable Diffusionを微調整して、新しいロボット姿勢の第三者視点のRGBおよびRGB-D観測を合成します。提案手法では、対応する関節空間の行動ラベルも同時に生成し、さらに制約付き最適化を用いて、両手操作の状況における適切な把持器（グリッパ）と物体の接触制約により、物理的整合性を強制します。我々は、5つのシミュレーション課題と3つの実環境課題で手法を評価します。2625回のシミュレーション試行と300回の実環境試行における結果は、ROPAがベースラインおよびアブレーションを上回り、アイ・イン・ハンド両手マニピュレーションにおける、スケーラブルなRGBおよびRGB-Dデータ拡張の可能性を示しています。プロジェクトのWebサイトは以下です: https://ropaaug.github.io/。