GEM:オフライン強化学習における行動正規化候補行動選択のためのガイド付き期待値最大化
arXiv cs.LG / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、オフライン強化学習における重要な課題に取り組む。すなわち、データセットの行動空間が分岐的、または多峰性になると、行動選択が脆くなり、単純な単峰性ポリシーの抽出では、十分に裏付けのない「中間的」な行動が生成されてしまう。
広告



