データ削除は適応型強化学習に役立つ

arXiv cs.LG / 2026/5/4

📰 ニュースModels & Research

要点

  • この論文は、時間変動する環境に適応する強化学習を、テスト時に文脈(コンテキスト)が未知で低次元であるという設定の文脈付きMDP(cMDP)で扱います。
  • 文脈推定(コンテキスト推定)の手法を改善するために、各ラウンド後に学習用リプレイバッファの一部をランダムに削除するというシンプルな工夫を提案します。
  • ランダム削除によって、より前の政策で収集された古いデータ(別分布の軌跡)が暗黙的に下がり、推定器のロバスト性ギャップがMLPで約30%、RNN系で平均6%低減されます。
  • この手法により、削除なしで学習した大きなMLPのベースラインを、パラメータ数が5分の1の狭いMLPが上回れることも示されます。
  • 著者らは、分布ミスマッチを考慮した正則化付きリスク最小化の観点から理論解析を行い、一様ランダム削除が期待テスト損失を下げ得ることを証明し、さらに条件(リッジ回帰では正則化係数やSNRに基づく閾値など)を定量化しています。

概要: 現実世界において強化学習ポリシーを展開するには、時間変動する環境への適応が必要です。本研究では、この問題を文脈付きマルコフ決定過程(cMDP)の枠組みで扱います。そこでは、テスト時に未知の低次元文脈によって、環境の族がインデックス付けされます。標準的なアプローチでは問題を分解します。すなわち、真の文脈を知っていると仮定する、いわゆる「ユニバーサル・ポリシー」を学習し、その後、観測された軌跡を用いて文脈を近似する文脈推定器と組み合わせます。本研究では、推定器を大幅に改善する、単純で直観に反するトリックを特定します。それは、各ラウンドの後に学習バッファの一部の割合をランダムに削除することです。これは、より良いポリシーを段階的に用いて複数のラウンドでデータが収集されるため、古い軌跡は、展開時の推定器が直面する分布とは異なる分布から得られることによります。ランダム削除は、どのサンプルが古くなったのかを明示的に特定することなく、古いデータに暗黙の指数減衰を生じさせつつ多様性を維持します。この結果、MLPではロバストネス・ギャップが30%低減され、再帰型ネットワークでは平均で6%低減されます。さらに驚くべきことに、削除なしで学習した広いMLPを上回ることを、パラメータが5分の1で済む狭いMLPが可能にします。削除がいつ、なぜ役立つのかを理解するために、学習分布と展開時の分布の間にミスマッチがある状況での正則化付き経験的リスク最小化を分析します。この理想化された設定において、穏やかな条件のもとで、単一の一様ランダムな学習点を取り除くことが、期待値の下で期待テスト損失を低下させることを証明します。リッジ回帰についてはこれを定量化します。削除は、正則化係数が中程度であり、かつ信号対雑音比(SNR)が十分に低い場合に有効です。重要なのは、このSNR閾値が、削除が有益となるために学習と展開の分布ミスマッチがどれほど大きくなければならないかを直接測る尺度を与えることです。

データ削除は適応型強化学習に役立つ | AI Navigate