線形混合MDPに対するオフライン・オンライン強化学習

arXiv cs.LG / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、データ収集とオンラインでの相互作用の間で環境が変化する状況における、線形混合マルコフ決定過程（MDP）に対するオフライン・オンライン強化学習を調査する。
情報量が十分な場合（例：十分なカバレッジや小さなシフト）には、オフラインデータを適応的に活用するアルゴリズムを提案し、それによってオンラインのみの学習を証明可能に上回ることを示す。
大きなミスマッチによりオフラインデータが情報を持たない場合には、安全にそれらの重みを下げ、オンラインのみのベースラインと同等の性能に合わせる。
著者らは後悔（regret）の上界を導出し、さらに条件を精密に特徴づけるためのほぼ一致する下界も提示する。
実験により理論解析が支持され、アルゴリズムの挙動が、オフラインデータが有益となる場合と有害なミスマッチとなる場合の予測と一致することが示される。

Abstract

環境シフトの下で、線形混合マルコフ決定過程（MDP）におけるオフライン・オンライン強化学習を研究します。オフライン段階では、データは未知の行動方策によって収集され、適合しない環境から得られる可能性があります。一方、オンライン段階では学習者が対象環境と相互作用します。私たちはオフラインデータを適応的に活用するアルゴリズムを提案します。オフラインデータが有益である場合、十分なカバレッジ、または小さな環境シフトによって、当該アルゴリズムは純粋なオンライン学習よりも確実に改善します。オフラインデータが有益でない場合、アルゴリズムはそれらを安全に無視し、オンラインのみの性能に一致します。有益となる条件を明示的に特徴づける退却（レグレット）の上界を確立し、さらにほぼ一致する下界とともに示します。数値実験によっても、理論的な知見が裏付けられます。