定数を平均したサンプルに基づくQ学習のためのオンライン統計的推論
arXiv stat.ML / 2026/3/31
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、サンプル平均化されたQ学習に対して統計的オンライン推論を行うための枠組みを提示し、高分散やノイズのある/疎な報酬によって生じる性能の不安定性に対処することを目的としている。
- 著者らは、理論的保証を可能にするため、一般的な条件のもとで、修正されたサンプル平均化Q学習アルゴリズムに対して機能的中心極限定理(FCLT)を適用する。
- 推論フレームワークから導かれるランダムスケーリング手法を用いて、推定されたQ値に対する信頼区間を構成する。
- 実験では、提案手法を従来のQ学習と比較し、グリッドワールドの玩具タスクおよび動的な資源マッチング問題において、信頼区間のカバレッジ率と幅を報告する。


