Fisher Decorator:ローカル輸送写像によるフローポリシーの洗練

arXiv cs.RO / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、フローベースのオフライン強化学習ポリシーが、オフライン設定でL2正則化と2-Wasserstein距離の関係を取り違える可能性がある点に焦点を当てている。
  • 著者らはポリシー更新を幾何学的に捉え、初期のフローポリシーに残差の変位を加える形で局所輸送写像として定式化することで、最適化の向きを補正する。
  • ポリシーが作る密度変換を解析し、Fisher情報行列によりKL制約付き目的関数を局所的な2次近似として導出することで、等方的ではなく異方的(方向依存)な最適化問題を得る。
  • フロ―速度に埋め込まれたスコア関数を用いて、効率的な最適化のための対応する2次制約も構成する。
  • 複数のオフラインRLベンチマークで最先端の性能が示され、理論的にも従来法の劣化が等方的近似に起因することが説明される。

要旨: フローに基づくオフライン強化学習(RL)の最近の進展は、フローマッチングによって方策をパラメータ化することで強力な性能を達成してきました。しかし、それらは依然として、表現力、最適性、効率の間に存在する重要なトレードオフに直面しています。特に、既存のフローベース方策はL_2正則化を2-ワッサースタイン距離(W_2)の上界として解釈しており、オフライン設定では問題となり得ます。この問題の原因は本質的な幾何学的な不一致にあります。すなわち、行動方策のマニフォールドは本来的に異方的である一方、L_2(またはW_2の上界)による正則化は等方的であり、密度にも鈍感です。その結果、最適化の方向が体系的にずれてしまいます。これに対処するために、本論文では幾何学的な観点からオフラインRLを再検討し、方策の洗練(リファインメント)を局所的な輸送写像として定式化できることを示します。すなわち、初期のフローベース方策に残差の変位を加えます。誘導される密度変換を解析することで、フィッシャー情報行列によって支配されるKL制約付き目的関数の局所的な二次近似を導出し、計算可能な異方的最適化の定式化を可能にします。さらに、フロー速度に埋め込まれたスコア関数を活用することで、効率的な最適化に対応する二次制約を得ます。本結果は、先行手法における最適性ギャップがそれらの等方的近似に起因することを明らかにします。これに対し、本枠組みでは最適解の近傍において、証明可能な範囲で制御可能な近似誤差を達成します。多数の実験により、多様なオフラインRLベンチマークで最先端の性能を示します。プロジェクトページ: https://github.com/ARC0127/Fisher-Decorator.