生成ロボットポリシーにおけるシム・アンド・リアル共同訓練の機構的分析

arXiv cs.RO / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成ロボットポリシーにおいてシミュレーション（sim）と実機（real）の共同訓練が有効に機能する理由を調査し、その経験的成功にもかかわらず基礎となるメカニズムの理解が不足しているというギャップに取り組む。
性能を支配する2つの固有の効果を特定する：主たる要因は構造化された表現のアライメントであり、補助的な修飾要因として重要度の再重み付け効果がある。
構造化された表現のアライメント効果は、ドメイン間で表現を整合させることと、頑健なポリシー学習のために十分なドメイン識別性を維持することの間のトレードオフを捉える。
重要度の再重み付け効果は、訓練中のアクション重み付けがドメインに依存して調整されることに起因するとされる。
著者らは、制御されたトイモデル実験に加えて、広範なsim-and-simおよびsim-and-realのロボット操作実験によってこれらの主張を検証し、従来手法より改善する単純な方法を提案する。

Abstract

Co-training（共同学習）は、シミュレーションや異種エンボディメントのロボットデータなどの豊富なサロゲートデータと、限られた領域内の実世界データを組み合わせるものであり、生成ロボットポリシーの学習で広く用いられている。経験的には成功しているにもかかわらず、co-trainingがいつ、なぜ有効になるのかを決めるメカニズムは、十分には理解されていない。そこで本研究では、理論解析と実験的研究により sim-and-real（シムと実世界の）co-trainingの仕組みを調査し、性能を支配する2つの本質的な効果を特定する。1つ目は、\textbf{``structured representation alignment（構造化された表現の整合）''}であり、ドメイン間の表現整合とドメイン識別性の間のバランスを反映しており、下流の性能において主要な役割を果たす。2つ目は、\textbf{``importance reweighting effect（重要度の再重み付け効果）''}であり、行動の重み付けに対するドメイン依存の調整として生じ、二次的なレベルで作用する。これらの効果を、玩具モデルに対する制御された実験および大規模な sim-and-sim（シムとシム）と sim-and-real（シムと実世界）のロボット操作実験で検証する。本解析は、近年のco-training手法に対する統一的な解釈を与えるとともに、従来手法を一貫して改善する単純な方法を動機づける。より広く言えば、本研究の目的はco-trainingの内的な仕組みを調べ、この方向性における研究を促進することである。