近似的な情報状態によるシミュレーション・トゥ・リアル(Sim2Real)の抽象化

arXiv cs.RO / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、重要なタスクの詳細を省いた「抽象シミュレータ」からでも、強化学習で訓練した方策を現実世界へ転移できる「抽象Sim2Real」問題を定式化します。
  • RLの状態抽象化の枠組みで問題を捉え直し、抽象化されたダイナミクスが状態履歴を考慮するように基礎付け(grounding)できれば、抽象シミュレータを対象タスクに整合できることを示します。
  • 提案手法では、現実世界のタスクデータを用いて抽象シミュレータのダイナミクスを補正し、整合させます。
  • 実験により、この手法がシム対シム(sim2sim)とシム対リアル(sim2real)の双方の評価で方策転移の成功を可能にすることが示されています。
  • 研究の背景には、ロボットの展開がより複雑で広範な現実環境へ広がるにつれて、高精度シミュレータを作ることが難しくなるという実務上の課題があります。

Abstract

近年、強化学習(RL)は、与えられた課題に対して高速かつ正確なシミュレータが利用可能である場合、ロボティクスにおいて目覚ましい成功を収めてきました。RLとシミュレーションを用いる際には、一般にシミュレータの現実らしさ(リアリズム)が高いほど有益ですが、ロボットがますます複雑かつ広範な領域に投入されるにつれて、それを得ることは難しくなります。このような状況では、シミュレータは特定の目標課題の関連するすべての詳細をモデル化できない可能性が高く、この観察は、主要な課題の詳細を省いたシミュレータによるsim2realの研究を動機づけます。本論文では、抽象的なsim2real問題を形式化し、その研究を行います。すなわち、目標課題を粗い抽象化のレベルでモデル化する抽象的なシミュレータが与えられたとき、抽象的なシミュレータ上でRLによって方策を学習し、それを現実世界へと成功裏に転移するにはどうすればよいか、という問題です。第一の貢献は、RL文献における状態抽象化の言語を用いて、この問題を形式化することです。この枠組みにより、抽象的なシミュレータを、基礎付けられた(grounded)抽象ダイナミクスが状態の履歴を考慮する場合に、目標課題と一致させるよう基礎付けられることが示されます。形式化に基づき、次に、実世界の課題データを用いて抽象シミュレータのダイナミクスを補正する手法を導入します。さらに、この手法がsim2sim評価とsim2real評価の両方において、方策の転移を成功させることを示します。