一般的な関数近似による、証明可能に効率的なオフラインからオンラインへの価値適応

arXiv cs.LG / 2026/4/16

📰 ニュース

要点

  • 本論文は、不完全なオフラインで事前学習されたQ関数から開始し、限られたオンライン相互作用のみを用いる場合の、価値適応に関するオフラインからオンラインの強化学習を研究する。

star$に近い場合でさえ、特定の難しいインスタンスにおいては、オンライン適応が純粋なオンラインRLより効率的になり得ないことを示します。良い面としては、オフライン事前学習済み価値関数に関する新しい構造条件の下で、問題依存のサンプル複雑性をもつ適応アルゴリズムO2O-LSVIを提案し、純粋なオンラインRLよりも改善されることを理論的に証明します。最後に、本理論を、提案手法の実用上の有効性を示すニューラルネットワーク実験によって補完します。