Occupancy Reward Shaping:オフラインの目標条件付き強化学習におけるクレジット割当の改善

arXiv cs.LG / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、アクションと長期的な結果の間に時間的な遅れが生じることにより、オフラインの目標条件付き強化学習で目標指向行動を学習する際にクレジット割当が難しくなる問題を扱っています。
  • 著者らは、学習した生成的ワールドモデルが持つ時間情報を、将来状態分布に符号化された構造を最適輸送を用いて「世界の幾何」として解釈することで抽出する手法を提案します。
  • その結果得られる Occupancy Reward Shaping(ORS)は、占有(occupancy)測度の幾何をゴール到達に関する報酬へと変換し、とりわけスパース報酬設定でクレジット割当問題を緩和します。
  • ORSは最適方策を理論的に変えないことが示されつつ、長いホライズンの移動・操作タスク13件において約2.2倍の性能向上が実験的に報告されています。
  • さらにORSは、トカマク制御タスク3件における核融合の実世界制御でも有効であることが示されています。

Abstract

The temporal lag between actions and their long-term consequences makes credit assignment a challenge when learning goal-directed behaviors from data. Generative world models capture the distribution of future states an agent may visit, indicating that they have captured temporal information. How can that temporal information be extracted to perform credit assignment? In this paper, we formalize how the temporal information stored in world models encodes the underlying geometry of the world. Leveraging optimal transport, we extract this geometry from a learned model of the occupancy measure into a reward function that captures goal-reaching information. Our resulting method, Occupancy Reward Shaping, largely mitigates the problem of credit assignment in sparse reward settings. ORS provably does not alter the optimal policy, yet empirically improves performance by 2.2x across 13 diverse long-horizon locomotion and manipulation tasks. Moreover, we demonstrate the effectiveness of ORS in the real world for controlling nuclear fusion on 3 Tokamak control tasks. Code: https://github.com/aravindvenu7/occupancy_reward_shaping; Website: https://aravindvenu7.github.io/website/ors/