AI Navigate

ロールアウトを用いない最大エントロピー探索

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、外部報酬に依存せず、長期的な状態空間の均一な網羅を促進するため、定常的な訪問分布のエントロピーを最大化する問題として強化学習における探索を再定義する。
  • それは、EVE(EigenVector-based Exploration)と呼ばれる新しいアルゴリズムを導入し、明示的なロールアウトや訪問頻度の推定を伴わずに、最大エントロピー探索の最適な方策を計算する。
  • 正則化されない目的関数に対処するため、エントロピーを単調に改善し収束する事後ポリシー反復(PPI)アプローチを採用する。
  • 決定論的グリッドワールド環境における実証結果は、EVEがロールアウトベースのベースラインよりも効率性を高めつつ、競争力のある探索性能を達成することを示している。

概要: 効率的な探索は強化学習における中心的な課題であり、データ収集のための有用な事前学習目的として機能します。特に外部報酬関数が利用できない場合にはそうです。探索問題の原理的な定式化は、誘起された定常訪問分布のエントロピーを最大化する方策を見つけることであり、これにより状態空間の長期的な均一なカバレッジを促進します。多くの既存の探索手法は、オンポリシーの繰り返しのロールアウトによって状態の訪問頻度を推定することを要求しますが、これは計算コストが高くなることがあります。本研究では、報酬が訪問分布自体から導かれる内部的な平均報酬形式を代わりに検討します。これにより、最適な方策は定常状態のエントロピーを最大化します。この目的のエントロピー正則化版はスペクトル特性を持つことができ、関連する定常分布は問題依存の遷移行列の支配的固有ベクトルから計算できます。この洞察は、最大エントロピー探索問題を解く新規アルゴリズム EVE (EigenVector-based Exploration) へと導きます。EVE は明示的なロールアウトや分布推定を回避し、代わりに値ベースの手法に近い反復的更新によって解を計算します。元の正則化されていない目的関数に対処するため、後部方策反復 (PPI) アプローチを採用します。これによりエントロピーが単調に改善され、値の収束をもたらします。標準的な仮定の下で EVE の収束性を証明し、経験的に高い定常状態エントロピーを持つ方策を効率的に生成することを示します。これにより、決定論的なグリッドワールド環境におけるロールアウトベースのベースラインと比較して、探索性能が競争力のある水準に達します。