曖昧性下における強靭な探索的ストッピングの研究

arXiv stat.ML / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、環境の確率に不確実性（曖昧性）がある状況で最適停止を行うための、連続時間の強靭強化学習フレームワークを提案・解析する。
曖昧性は、参照測度に支配される複数の確率測度を考慮する形で表され、g期待値（g-expectation）に基づいて問題を「強靭な探索的制御」として再定式化する。
最適な解は後退型確率微分方程式（BSDE）によって特徴付けられ、その結果に基づいて曖昧性に対して頑健な最適停止時刻を近似する探索的停止時刻を構成する。
さらに方策反復の定理を示し、その理論を強化学習アルゴリズムとして実装し、曖昧性と探索度を変えた数値実験で収束性・頑健性・スケーラビリティを確認する。
要するに、本研究はモデル不確実性下での頑健な意思決定と、探索による能動的学習を結び付け、確率的制御理論に裏付けられた実用的なRL手法を提示している。

概要：曖昧性のもとでの最適停止に対する、連続時間の頑健強化学習フレームワークを提案し解析します。このフレームワークでは、エージェントは2つの目的に動機づけられた頑健な探索的停止時刻を選択します：すなわち、曖昧性のもとでの頑健な意思決定と、未知の環境についての学習です。ここで曖昧性とは、参照測度によって支配される複数の確率測度を考慮することを指し、エージェントが、環境に関する彼女の学習した信念を表す参照測度が誤りである可能性に気づいていることを反映しています。 $g$ -期待値フレームワークを用いて、曖昧性のもとでの最適停止問題を、ベルヌーイ分布をとる制御による頑健な探索的制御問題として再定式化します。次に、後ろ向き確率微分方程式によって最適なベルヌーイ分布制御を特徴づけ、その結果に基づいて、曖昧性のもとでの最適停止時刻を近似する頑健な探索的停止時刻を構成します。最後に、方策反復の定理を確立し、それを強化学習アルゴリズムとして実装します。数値実験により、提案する強化学習アルゴリズムが、曖昧性と探索のさまざまな水準にわたって、収束性、頑健性、拡張性を示すことを確認します。