PAC-Bayesian報酬認証アウトカム重み付き学習

arXiv cs.LG / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

PROWL（PAC-Bayesian Reward-Certified Outcome Weighted Learning）は、OWLベースの個別化治療ルール（ITR）学習が、ノイズの多い、あるいは楽観的な報酬代理指標によって誤誘導される問題に対し、報酬の不確実性を明示的にモデル化することで扱う。
本手法は、片側の不確実性証明（uncertainty certificate）を用いて、真の期待値に対する厳密に方策依存の下界と、保守的な報酬を構成し、見かけの性能を過大評価するのではなく頑健な方策最適化を可能にする。
ランダム化されたITRに対する、非漸近的な理論的基盤をもつPAC-Bayesフレームワークを提供し、分割不要のコスト感受型分類問題への厳密な証明付き（certified）低減と、ベイズ更新による最適事後分布の特徴づけを含む。
実運用で学習可能にするため、PROWLは、一般化ベイズ推論における学習率選択を扱うための、境界に基づく自動キャリブレーションを追加し、効率的な最適化のためにフィッシャー整合的な（Fisher-consistent）認証ヒンジ代理損失を用いる。
実験により、PROWLは、強い報酬不確実性のもとで頑健で高価値な治療レジームの推定において、標準的なITR推定手法よりも改善することが示される。