感覚(プロプリオセプティブ)分布マッチングによる脚式移動のSim-to-Real学習のためのシミュレータ適応

arXiv cs.RO / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、シミュレーションで学習した脚式移動におけるSim-to-Real性能低下に対し、シミュレータのダイナミクスを実機の挙動により近づけることでその改善を図る。
  • ハードウェアとシミュレーションのロールアウトを、関節の観測と行動に関する分布として比較する「プロプリオセプティブ分布マッチング」を提案し、時間の整列や外部の特権的センシングを回避する。
  • このマッチング指標をブラックボックス目的関数として用い、シミュレータパラメータを同定し、さらにより正確なダイナミクスのために行動差分(action-delta)および残差アクチュエータモデルを適合させる。
  • Go2四脚ロボットでの実験では、本手法が、Sim-to-Simのアブレーションにおいて特権状態マッチングのベースラインと同程度のパラメータ品質およびポリシー性能の向上を回復できることが示される。
  • 実世界でのテストでは、5分未満の実機データで大幅なドリフト低減が報告されており、困難な二足歩行シナリオを含むことから、Sim-to-Real移行に対する実用性の高さが示唆される。

要旨: シミュレータで訓練された脚付きロコモーションの方策は、シミュレータと実世界のダイナミクスの不一致により、ハードウェア上で性能低下を示すことがしばしばあります。これは、ハードウェアの挙動により適合するようにシミュレータ自体を適応させる必要性を浮き彫りにしています。従来の研究では、関節およびベースの軌道を精密に時間整合させて照合することで、これらの不一致を定量化するのが一般的でした。この手順にはモーションキャプチャ、特権付きセンシング(privileged sensing)、そして慎重に制御された初期条件が必要です。本研究では、関節の観測と行動の分布として、ハードウェアとシミュレーションのロールアウトを比較する「固有受容分布マッチング」に基づく、実用的な代替手法を提案します。これにより、時間整合や外部センシングの必要がなくなります。この指標をブラックボックス目的関数として用い、パラメータ同定、アクション・デルタモデル、残差アクチュエータモデルを通じてシミュレータのダイナミクスを適応させることを探ります。提案手法は、Go2四足機の広範なシム対シム(sim-to-sim)アブレーションにおいて、特権状態のマッチングに基づくベースラインと同等のパラメータ回復および方策の性能向上を達成します。実環境の実験では、困難な二足歩行の挙動でさえも、ハードウェアデータが5分未満であるにもかかわらず、顕著なドリフト低減が示されます。これらの結果は、固有受容分布マッチングが、学習した脚付きロコモーションのシム・ツー・リアル転送(sim-to-real transfer)に向けて、シミュレータ適応を行うための実用的かつ効果的な経路を提供することを示しています。