残差に基づくオフライン強化学習

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存手法に共通する分布シフトとデータカバレッジの制限を緩和する残差に基づく枠組みにより、オフライン強化学習に取り組む。
学習した遷移ダイナミクスにおける推定誤差を明示的に考慮する、残差に基づくベルマン最適性作用素を導入し、方策最適化の際に経験的残差を用いる。
著者らは、この作用素が縮小写像であることを証明し、固定点が漸近的に最適となるための条件と有限サンプル保証を提示する。
残差に基づくオフライン深層Q学習（DQN）アルゴリズムを開発し、確率的CartPole環境での実験によりその有効性を検証する。

要旨: オフライン強化学習（RL）は、実環境との相互作用なしに、事前に収集されたデータから方策を学習するための手法として注目を集めており、特にハイステークスなアプリケーションにおいて重要です。オフラインRLアルゴリズムに関する研究は増えてきているものの、これらの手法はしばしばデータのカバレッジに関する制約の強い仮定に依存しており、分布シフトの影響を受けやすいです。本論文では、一般の状態空間および行動空間に対する、残差に基づくオフラインRLの枠組みを提案します。具体的には、経験的残差を活用することで、推定誤差を遷移ダイナミクスの学習過程に明示的に組み込み、それを方策最適化へと取り込む、残差に基づくベルマン最適性オペレータを定義します。このベルマンオペレータが縮約写像であることを示し、さらに、その固定点が漸近的に最適であり有限サンプルの保証を持つための条件を特定します。加えて、残差に基づくオフライン深層Q学習（DQN）アルゴリズムを発展させます。確率的なCartPole環境を用いて、提案する残差に基づくオフラインDQNアルゴリズムの有効性を実証します。