臨床ナラティブから嗜好ベースの目的関数を学習し、逐次的な治療意思決定を行う
arXiv cs.AI / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、医療における強化学習の中核的課題である「報酬が疎で、遅延し、また構造化された生理データのみからは報酬を定義しにくい」状況での報酬関数設計に取り組む。
- 大規模言語モデルを用いて、トラジェクトリの質に関するスコアと患者トラジェクトリ間の選好(ペアワイズ)を退院サマリから導出することで、Clinical Narrative-informed Preference Rewards(CN-PR)を提案する。
- CN-PRは、意思決定タスクに対して異なる臨床ナラティブがどれほど有益かのばらつきを扱うための確信度(コンフィデンス)重み付けメカニズムを追加する。
- 実験では、学習した報酬とトラジェクトリの質との間で強い整合性が報告され(Spearmanのrho = 0.63)、死亡率の性能を低下させることなく、回復に関連する転帰の改善(例:臓器サポート非依存日数の増加、ショックの解消の迅速化)につながる方策が示される。
- この手法は外部検証下でも成立することが報告されており、逐次的な治療意思決定における、手作りの報酬設計や純粋に転帰ベースの報酬設計に代わるスケーラブルな監督として、ナラティブ由来の指導が有望であることを示唆する。

