ベルマン一貫性とハイブリッドクリティックによるクロスドメイン方策最適化
arXiv cs.LG / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文はクロスドメイン強化学習(CDRL)を提案し、ソースドメインとターゲットドメインが状態空間または行動空間で異なる場合に生じる2つの主要な転移性の課題を特定します。
- クロスドメインベルマン一貫性を、ソースドメインのポリシーの転移可能性を評価する指標として定義します。
- QAvatarを提案します。これはソースドメインとターゲットドメインのQ関数を適応的でハイパーパラメータ不要な重み付けスキームで組み合わせるハイブリッドクリティックです。
- 著者らは収束性を分析し、ロコモーション課題とロボットアーム操作ベンチマークで信頼性の高い転送と性能向上を示します。
- 本手法のコードはプロジェクトページで公開されています。
クロスドメイン強化学習(CDRL)は、ソースドメインから収集したデータサンプルを活用して、類似したターゲットドメインにおける学習を促進することで、RLのデータ効率を改善することを目的としています。潜在的な可能性にもかかわらず、RLにおけるクロスドメイン転送には、2つの基本的かつ絡み合った課題があることが知られています:(i) ソースドメインとターゲットドメインは状態空間または行動空間を異にすることがあり、これが直接的な転送を不可能にし、より高度なドメイン間マッピングを必要とします;(ii) RLにおけるソースドメインモデルの転移可能性は事前には容易には特定できず、そのためCDRLは転送時にネガティブな影響を受けやすい。本研究では、これら2つの課題に対して、 extit{クロスドメインベルマン一貫性}と extit{ハイブリッドクリティック}の観点から同時に対処することを提案します。具体的には、まずソースドメインモデルの転移可能性を測る手段としてクロスドメインベルマン一貫性の概念を導入します。次に、ソースドメインとターゲットドメインのQ関数を適応的でハイパーパラメータ不要な重み関数で結合する$Q$Avatarを提案します。この設計を通じて、$Q$Avatarの収束挙動を特徴づけ、ソースドメインのQ関数をターゲットドメインへの知識転送へ有効に活用することで信頼性の高い転送を達成することを示します。実験を通じて、$Q$Avatarがロコモーション課題やロボットアーム操作など、さまざまなRLベンチマーク課題で有利な転送性を達成することを実証します。我々のコードはhttps://rl-bandits-lab.github.io/Cross-Domain-RL/で公開されています。