打ち切り下での生存アウトカムに対するオフポリシー評価と学習
arXiv stat.ML / 2026/3/25
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ログデータからオフポリシー評価(OPE)を用いて、生存に関連する目的(例:患者の生存や顧客の継続)をどのように最適化・評価するかを扱い、安全性の高くないオンライン実験を避けることを目的とする。
- 右側打ち切り(right-censoring)されたアウトカムに対して標準的なOPE推定量が機能しない理由を論じる。すなわち、推定量が打ち切り以降に観測されない生存時間を無視するため、政策(ポリシー)の性能を体系的に過小評価しうる。
- 著者らは、打ち切りによるバイアスを補正するための逆確率打ち切り重み付け(Inverse Probability of Censoring Weighting)に基づく、新しい打ち切りを考慮した推定量 IPCW-IPS と IPCW-DR を提案する。
- 提案した推定量の不偏性を証明し、さらに IPCW-DR が二重頑健(doubly robust)であることを示す。すなわち、確率(propensity)モデルまたはアウトカムモデルのいずれか一方が正しければ一貫性が保証される。
- その枠組みを、予算制約の下での制約付きオフポリシー学習へと拡張し、シミュレーションおよび公開された実データセットでのデモンストレーションによって検証する。