認識論的ロバストなオフライン強化学習

arXiv cs.LG / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、データセットのカバレッジが限られている、あるいは偏っていることによって生じる、オフライン強化学習における根本的な課題である認識論的(epistemic)不確実性に取り組む。特に、行動ポリシー(behavior policy)がある行動を決して取らない場合を問題として扱う。
  • 著者らは、SAC-N のようなアンサンブルベースのアプローチは大規模なアンサンブルを必要とするなどコストが高いだけでなく、認識論的な不確実性とアレアトリック(aleatoric)な不確実性を区別せずに混在させてしまい、信頼性を低下させ得ると主張する。
  • そこで、離散的なアンサンブルの代わりに、Q値に対するコンパクトな不確実性集合を用いる統一的な枠組みを提案し、より汎化可能なロバスト推定を可能にする。
  • Epinet 型のモデルを導入し、不確実性集合を直接的に形作ることで、アンサンブルへの依存を避けつつ、ロバストなベルマン目的(robust Bellman objective)により累積報酬の最適化を行う。
  • さらに、本研究はリスクに敏感な行動ポリシーに対するオフラインRLのベンチマークを提供し、タブラー型および連続環境の双方において、アンサンブルのベースラインよりもロバスト性と汎化性能が向上することを報告する。

要旨: オフライン強化学習は、追加の環境相互作用なしに固定されたデータセットから方策を学習する。 この設定における重要な課題は、データのカバレッジが限られている、または偏っていることに起因する認識論的不確実性であり、特に行動方策が特定の行動を体系的に避ける場合に顕著に生じる。 その結果、不正確な価値推定や信頼性の低い汎化につながり得る。 SAC-N のようなアンサンブルに基づく手法は、アンサンブルの最小値を用いて Q 値を保守的に推定することでこの問題を緩和するが、大規模なアンサンブルが必要であることが多く、認識論的不確実性とアレアトリック的不確実性をしばしば混同してしまう。 これらの制限に対処するために、離散的なアンサンブルを Q 値に対するコンパクトな不確実性集合に置き換える、統一的で汎用性のある枠組みを提案する。 さらに、Epinet ベースのモデルを導入し、アンサンブルに依存せずに頑健なベルマン目的の下で累積報酬を最適化するために、不確実性集合を直接的に形成する。 また、リスクに敏感な行動方策のもとでオフライン RL アルゴリズムを評価するためのベンチマークを導入し、提案手法が、離散状態の領域および連続状態の領域の両方において、アンサンブルに基づくベースラインよりも優れた頑健性と汎化を達成することを示す。