打ち切り下での生存アウトカムに対するオフポリシー評価と学習

arXiv stat.ML / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ログデータからオフポリシー評価(OPE)を用いて、生存に関連する目的(例:患者の生存や顧客の継続)をどのように最適化・評価するかを扱い、安全性の高くないオンライン実験を避けることを目的とする。
  • 右側打ち切り(right-censoring)されたアウトカムに対して標準的なOPE推定量が機能しない理由を論じる。すなわち、推定量が打ち切り以降に観測されない生存時間を無視するため、政策(ポリシー)の性能を体系的に過小評価しうる。
  • 著者らは、打ち切りによるバイアスを補正するための逆確率打ち切り重み付け(Inverse Probability of Censoring Weighting)に基づく、新しい打ち切りを考慮した推定量 IPCW-IPS と IPCW-DR を提案する。
  • 提案した推定量の不偏性を証明し、さらに IPCW-DR が二重頑健(doubly robust)であることを示す。すなわち、確率(propensity)モデルまたはアウトカムモデルのいずれか一方が正しければ一貫性が保証される。
  • その枠組みを、予算制約の下での制約付きオフポリシー学習へと拡張し、シミュレーションおよび公開された実データセットでのデモンストレーションによって検証する。

Abstract

患者の生存や顧客の継続利用など、生存結果を最適化することは、データ駆動型の意思決定における重要な目的である。オフポリシー評価(Off-Policy Evaluation~(OPE))は、高リスクなオンライン実験や費用のかかる実験を、意思決定の対象が高い社会的影響を持つ応用分野で行う必要なしに、記録されたデータのみを用いてそのような意思決定ポリシーを評価するための強力な枠組みを提供する。しかし、一般的な推定器は打ち切り(右打ち切り)の生存アウトカムを扱うようには設計されていない。具体的には、打ち切り時刻以降に観測されない生存時間を無視するため、真のポリシー性能を体系的に過小評価してしまう。 この問題に対処するために、本研究では、打ち切り下での生存アウトカムに合わせた、OPEおよびオフポリシー学習(Off-Policy Learning~(OPL))の新しい枠組みを提案する。具体的には、打ち切りバイアスを明示的に扱うために、打ち切りの逆確率重み付け(Inverse Probability of Censoring Weighting)技法を用いるIPCW-IPSおよびIPCW-DRを導入する。我々は理論的に、提案手法の推定量が不偏であることを示し、さらにIPCW-DRが二重頑健性を達成することを確立する。これにより、傾向スコア(propensity score)またはアウトカムモデルのいずれかが正しければ、一貫性が保証される。さらに、本枠組みを、予算制約の下でポリシー価値を最適化するための制約付きOPLへと拡張する。模擬実験によって提案手法の有効性を示し、評価タスクと学習タスクの両方について、公的に利用可能な実世界データを用いて、その実践的な影響を具体的に示す。