概要:オフライン強化学習は実世界へのデプロイに対して信頼性の高いポリシーを提供しますが、その固有の悲観性はオンラインでの探索と新規データの収集能力を著しく制限します。安全な強化学習から着想を得て、オフラインデータセットでよくカバーされ、シミュレータによって信頼性高くモデル化されている領域の境界近くを探索することで、エージェントは扱いやすいリスクを取り――情報量が多く不確実性が中程度の状態へ踏み込む一方で、安全回復のために馴染みのある領域に十分近い状態を保ちます。 しかし、この境界探索行動を素朴に報酬付けると、退化的な駐車行動につながる可能性があり、エージェントはフロンティアに到達すると単に停止してしまいます。これを解決するために、オフラインデータから訓練された非適応デプロイポリシーに対して継続的で安全な境界探索を誘導する新規のベクトル場報酬設計パラダイムを提案します。オフラインデータから訓練された不確実性オラクルを用いて、我々の報酬は二つの補完的な成分を組み合わせます:エージェントを目標とする不確実性レベルへ引きつける勾配整列項と、不確実性多様体の局所接線平面に沿った運動を促進する回転フロー項。理論分析を通じて、この報酬構造は境界に沿った持続的な探索行動を自然に引き起こしつつ、退化的解を防ぐことを示します。経験的には、提案する報酬設計を2次元連続ナビゲーション課題でSoft Actor-Criticと組み合わせることで、エージェントが境界の不確実性を安全で有益なデータ収集と主要タスクの完了を両立しつつ、境界をうまく越えることを検証します。
オフライン時の悲観性からの脱却: 安全なフロンティア探索のためのベクトル場報酬設計
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、オフライン強化学習における悲観性に対処し、それが探索を制限する点を指摘する。オフラインデータが十分にカバーされた領域の近傍で安全な境界探索を促進するために、ベクトル場報酬設計を提案する。
- 不確実性ベースの報酬を導入し、対象不確実性へ向かう勾配整列項と不確実性多様体の局所接線に沿う回転フロー成分を組み合わせ、退化した駐車挙動を回避する。
- 本手法は、オフラインデータから訓練された不確実性オラクルを用い、2Dナビゲーション課題で報酬設計をSoft Actor-Critic(SAC)と統合して実証され、不確実性境界に沿って探索を可能にしつつ、安全性とタスク性能のバランスを取る。
- 理論的分析は、持続的な探索行動と安全な回復を支持し、オフラインからオンラインへの移行時における安全探索のより広い適用性を示唆する。