マルコフ・リスク尺度とマルチパターン・リスク近似による強化学習

arXiv cs.LG / 2026/5/4

📰 ニュースModels & Research

要点

  • この論文は、リスク回避型の有限ホライゾン・マルコフ決定過程に対し、「ミニバッチ・メジャー」と呼ばれる新しいマルコフ整合的リスク尺度のクラスを導入します。
  • 「マルチパターン」リスク回避型問題を定義し、線形システムの設定を一般化することで、構造化されたリスクのモデリング範囲を広げます。
  • これらの考え方を、マルチパターンQファクター近似を用いた特徴量ベースのQ学習に統合します。
  • 指数的に依存する項を含む高確率の後悔(regret)評価 O(H^2 N^H sqrt(K))を証明し、さらに後方の方策評価ステップを簡素化する経済的な改良版も提案します。
  • 確率的な割当問題と短ホライゾンの多腕バンディットで理論を実証します。

\mathcal{O}\big(H^2 N^H \sqrt{ K}\big) を証明します。ここで H はホライゾン、N はミニバッチサイズ、K はエピソード数です。また、方策評価(後ろ向き)ステップを合理化する、経済的なバージョンの Q$ 学習法も提案します。理論結果は、確率的割当問題および短ホライゾンのマルチアームド・バンディット問題上で示します。