AI Navigate

未来の状態-行動訪問測度を用いた最大エントロピー探索

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、強化学習における探索を導くために、未来の状態-行動特徴の割引分布のエントロピーに比例する内発的報酬を導入する。
  • これらの内発的報酬の期待和が、初期状態からの軌道における特徴の割引分布のエントロピーの下限を与えることを証明し、最大エントロピー目的と関連づける。
  • 基盤となる特徴訪問分布が収縮演算子の不動点であることを示し、目的のオフポリシー推定を可能にする。
  • 実証的な結果は、探索のみを目的とするエージェントの収束がより速いことと、軌道内の訪問が改善されることを示し、評価したベンチマークにおいては基準手法と同等の制御性能を示した。

要約:
最大エントロピー強化学習は、エージェントが状態と行動を探索して、ある分布のエントロピーを最大化することを動機づけます。通常は、そのエントロピー関数に比例する追加の内発的報酬を提供することによって行われます。本論文では、将来の時間ステップで訪問される状態-アクション特徴の割引分布のエントロピーに比例する内発的報酬を研究します。このアプローチは、二つの結果によって動機づけられています。第一に、これらの内発的報酬の期待和が、初期状態から始まる軌道で訪問される状態-アクション特徴の割引分布のエントロピーの下界であることを示し、それを別の最大エントロピー目的に関連づけます。第二に、内発的報酬の定義で用いられる分布が収縮演算子の不動点であることを示し、したがってオフポリシーで推定できる。実験は、新しい目的が個々の軌道内での特徴の訪問を向上させる一方、異なる軌道全体にわたる期待訪問がやや減少することを示しており、これは下界が示唆するものです。探索のみを学習するエージェントの学習収束速度の向上にもつながります。考慮したベンチマークのほとんどの手法で、制御性能はほぼ同程度です。