メタ強化学習におけるOOD一般化の情報理論的分析

arXiv stat.ML / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、情報理論的枠組みを用いてメタ強化学習における分布外(OOD)一般化を分析する。
  • 2つのシフト設定、すなわち標準的な分布不一致と、広範囲から狭い範囲への学習において、メタ教師あり学習のOOD一般化に関する境界(bound)を導出する。
  • 著者らはその後、メタ強化学習に特化してOOD一般化問題を形式化し、マルコフ決定過程(MDP)の構造を活用することで、より詳細な境界を証明する。
  • 本研究では、提案された一般化解析の下で、勾配ベースのメタ強化学習アルゴリズムがどのように振る舞うかを検討する。

抄録: 本研究では、情報理論的観点からメタ強化学習における分布外(OOD)汎化を調べる。まず、2つの異なる分布シフトの状況、すなわち標準的な分布不一致と、広い範囲から狭い範囲へという学習設定において、メタ教師あり学習に対するOOD汎化の境界を確立する。この基盤に基づき、メタ強化学習における汎化問題を形式化し、マルコフ決定過程(MDP)の構造を活用するきめ細かな汎化境界を導出する。最後に、勾配ベースのメタ強化学習アルゴリズムの汎化性能を解析する。