次回受診予測による臨床記録のための再発生(レカレンス)を意識した基盤モデルのスケーリング
arXiv cs.LG / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、時系列の電子健康記録(EHR)データに対する再発生(レカレンス)を意識した生成的事前学習手法であるRAVENを提案し、患者の次回受診を予測する。具体的には、既往に条件づけたトークン化された臨床イベントを自己回帰的に生成することで実現する。
- 100万人超の個人データを用いて、再発するイベントに対する正則化を追加し、新たな発症(onset)と後続の再発(later occurrences)を区別しない場合、繰り返しのイベント・トークンが指標を不当に押し上げてしまう可能性がある評価上の落とし穴を指摘している。
- 著者らは、データ制約下かつ計算資源が飽和した設定でのスケーリングを検討し、モデル規模を大きくするだけでは効果が限定的であり、データ量の増加と組み合わせない限り有効ではないことを見いだす。
- ゼロショットの疾患発生(incidence)予測において、RAVENは完全に微調整された表現ベースのTransformerモデルと同等、あるいはそれに迫り、さらにシミュレーションベースの次トークン手法よりも優れることが示される。
- パラメータ更新を追加で行わなくても、RAVENは、損失を伴う臨床コードの写像(マッピング)や特徴量の不完全なカバレッジのもとで、コホート間の汎化性能を示しており、実運用の臨床データにおける変動に対する頑健性が示唆される。