動的治療レジームに対するほぼ同等のQ学習ポリシー

arXiv stat.ML / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、最悪値の許容度をハイパーパラメータ epsilon によって制御することで、動的治療レジームのQ学習を拡張し、単一の最適ポリシーの代わりに複数の近似最適ポリシーを得られるようにする。
  • この手法は epsilon-最適ポリシーの集合を構築し、行列値のQ表現を用いて、後退再帰中に複数の価値関数が共存できるようにする。
  • このフレームワークは、複数の決定が同等の結果をもたらす治療の無関心領域を特定し、治療選択の柔軟性と解釈性を高める。
  • このアプローチを、単一段階設定と多段階の腫瘍学モデルの両方で実証し、精密医療への実用的適用性を示している。

要約: 精密医療は個々の患者の特性に合わせて治療決定を調整することを目的としています。この目的は、動的治療方針を通じて一般的に形式化され、統計的および機械学習手法を用いて、進化する臨床情報に適応した逐次決定規則を導出します。多くの既存の定式化では、これらのアプローチは各段階で1つの最適な治療を生み出し、唯一の意思決定系列へとつながります。しかし、多くの臨床現場では、いくつかの治療オプションが類似した予測結果をもたらすことがあり、単一の最適方針に焦点を当てると、意味のある代替案が隠れてしまうことがあります。最適値からの最大許容偏差を指定するハイパーパラメータ \varepsilon で制御される最悪値許容基準を導入することにより、回顧データのQ-learningフレームワークを拡張します。単一の最適方針を特定するのではなく、提案手法は、\varepsilon-最適な方針の集合を構築し、その性能が最適値の制御された近傍内に留まるようにします。この定式化は、Q-learningをベクトル値表現から後向き再帰の間で複数の適用可能な価値関数が共存できるように、行列値表現へと移行させます。このアプローチは、ほぼ同等の治療戦略の系を生み出し、いくつかの決定が同等のアウトカムを達成する治療の無関心領域を明示的に特定します。このフレームワークを2つの設定で示します。1つは意思決定境界の周りの無関心領域を強調する単一段階の問題、もう1つは腫瘍サイズと治療毒性のダイナミクスを記述するシミュレーションに基づく腫瘍学モデルを用いた多段階の意思決定プロセスです。