接触が多いサンプリングベース予測制御におけるリスクを考慮したドメインランダム化の意外な効果

arXiv cs.RO / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、不確実性に対する感度が高い接触リッチなサンプリングベース予測制御(SPC)において、ドメインランダム化(DR)がどのように働くかを調べています。
  • ランダム化したモデル事例を用い、平均・楽観的・悲観的なロールアウト集約をリスクを考慮したDRとしてPush-Tタスクで比較します。
  • 著者らは、DRがモデル誤差への頑健性だけでなく、SPCオプティマイザが参照する実効的なコスト地形も変えることを示しています。
  • DRは、接触を生む行動の周りでオプティマイザの誘引領域(バシン・オブ・アトラクション)を再形成しうると報告されており、不確実性下でのより根拠あるリスクを考慮した接触リッチSPCへの発展が示唆されます。

要旨: ドメインランダム化(DR)は、モデリング誤差への頑健性を高めるための強化学習(方策学習)で広く用いられていますが、不確実性に対するロールアウトの品質の感度が非常に高い接触が豊富なサンプリングベースの予測制御(SPC)においては、十分に探究されていません。 本研究では、単純ではあるものの代表的なPush-T課題において、ランダム化されたモデル実例の下で、平均的・楽観的・悲観的なロールアウト集約を比較することにより、予測サンプリングにおけるリスクを考慮したDRを調べることから最初の一歩を踏み出します。 初期結果は、DRがモデリング誤差への頑健性に影響するだけでなく、接触を生み出す行動の周りに引き込まれる領域(吸引の盆地)を再形成することで、サンプリングベースの最適化器が見ている実効的なコスト地形にも影響を与えることを示唆しています。 これは、モデル不確実性のもとで、より基礎づけられたリスクを考慮した接触豊富なSPCを探究する可能性を開きます。 ビデオ: https://youtu.be/f1F0ALXxhSM