強化学習のワッサースタイン表現：政策最適化を最適輸送の観点から捉える

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、強化学習（RL）のための幾何学的フレームワークを提案し、政策を行動確率分布のワッサースタイン空間への写像として捉えます。
定常分布に基づくリーマン構造を確立し、政策の接空間を定義したうえで、対応するベクトル場の可測性の問題にも焦点を当てて測地線を特徴づけます。
一般的なRLの最適化問題を定式化し、オットーの計算（Otto’s calculus）を用いて勾配フローを構成することで、エネルギー汎関数の勾配とヘッセ行列を導出し、厳密な二次解析を可能にします。
低次元の数値実験で手法を検証し、高次元ではニューラルネットワークで政策をパラメータ化して、コストのエルゴード近似にもとづいて最適化します。

要旨: 行動確率のワッサースタイン空間への写像として方策を捉える、強化学習（RL）のための幾何学的枠組みを提示します。まず、定常分布によって誘導されるリーマン構造を定義し、一般的な状況においてその存在を証明します。次に、方策の接空間を定義し、測度論的な観点、すなわち状態空間から行動空間上の確率測度の接空間へ写されるベクトル場の可測性を特に取り扱いながら、測地線を特徴付けます。さらに、一般的なRL最適化問題を定式化し、オットーの計算（Otto's calculus）を用いて勾配流を構成します。エネルギーの勾配とヘッセ行列を計算し、形式的な二次解析を与えます。最後に、低次元の問題に対して数値例を用いて手法を示し、理論的形式主義から直接勾配を計算します。高次元の問題では、ニューラルネットワークを用いて方策をパラメータ化し、コストのエルゴード近似に基づいて最適化します。