ダイナミクスの不確実性下における頑健な敵対的方策最適化

arXiv cs.LG / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

強化学習（RL）において、学習時と異なるダイナミクス下で方策が失敗する問題に対し、既存のドメインランダム化や従来の対抗的RLの限界（代理アドバーサリ依存による盲点）を指摘しています。
提案手法RAPOでは、頑健性（worst-case）と性能（performance）のトレードオフを直接扱うデュアル定式化により、安定かつ効率的な最悪ケースロールアウトを実現し、その際のダイバージェンス境界も制御します。
ロールアウトの頑健化は「軌道レベル」で行い、デュアルの温度パラメータをアドバーサリアルネットで近似して“現在の状況に対する最悪”を探索します。
ダイナミクスの不確実性に対しては「モデルレベル」で、ダイナミクス・アンサンブルに対するボルツマン再重み付けで、現在の方策にとってより逆境的な環境を優先的にサンプリングすることでカバレッジを方策依存に調整します。
実験では、頑健RLベースラインよりRAPOが不確実性への耐性と分布外ダイナミクスへの汎化性能を改善しつつ、デュアルの扱いやすさ（tractability）を維持すると主張しています。

要旨: 強化学習（RL）ポリシーは、訓練時と異なるダイナミクスの下ではしばしばうまく機能せず、そのギャップはドメインランダム化や既存の敵対的RL手法によっては十分に解消されていません。分布的に頑健なRLは形式的な救済策を提供しますが、それでもなお解けない（非可換な）原問題を近似するために代理的な敵対者に依存しており、潜在的に不安定性や過度な保守性を引き起こし得る盲点が残ります。本研究では、頑健性と性能のトレードオフを直接に明示する二重（dual）定式化を提案します。軌道レベルでは、二重問題に由来する温度パラメータを敵対的ネットワークで近似し、発散（divergence）境界の下で効率的かつ安定した最悪ケースのロールアウトを実現します。モデルレベルでは、ダイナミクスのアンサンブルに対してボルツマン再重み付けを行い、一様サンプリングではなく、現在のポリシーに対してより不利な環境に焦点を当てます。これらの2つの構成要素は互いに独立に作用し、相補的です。軌道レベルの誘導は頑健なロールアウトを保証し、モデルレベルのサンプリングは不利なダイナミクスに対するポリシー依存のカバレッジを提供します。この結果得られる枠組み、頑健敵対的ポリシー最適化（RAPO）は、頑健RLのベースラインを上回り、不確実性への耐性と、分布外ダイナミクスへの一般化を改善しつつ、二重の可解性（dual tractability）を維持します。