完全に非マルコフ的な最適確率的制御のための、オフモデル学習と重要度サンプリングによる適応的学習。完全版

arXiv stat.ML / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、パス依存SDE、ラフ・ボラティリティのヘッジ、フラクショナル・ブラウン運動に駆動されるシステムといった状況に動機づけられた、完全に非マルコフ的なダイナミクスと未知のモデルパラメータを伴う連続時間の確率的制御問題を扱う。
参照法則のもとで固定した合成データセットを生成し、明示的な支配（dominant）学習法則とラドン＝ニコディム重みを用いた重要度サンプリングによって、目標モデルの動的計画法（ダイナミックプログラミング）作用素を復元する、オフモデル学習セットアップを用いた、埋め込み型の後向き動的計画方程式に対するモンテカルロ学習フレームワークを提案する。
主な貢献は、パラメトリックなモデル不確実性のもとで、同一の学習サンプルに対して再調整（リキャリブレーション）を行うたびに重み付けを更新し、軌道（トラジェクトリ）の再生成に伴う高コストを回避する、適応的な更新メカニズムである。
著者らは、固定パラメータのもとで埋め込み型動的計画方程式を深層ニューラルネットワークで近似することに対する非漸近的誤差評価を示し、さらに適応的学習においてモンテカルロ近似誤差とモデルリスク誤差を切り分けて議論する。
構造化された線形二次（LQ）型の数値実験により、オフモデル学習および適応的な重要度サンプリング更新手法を実証する。