トレーニング前の表現：生成医療イベントモデル向けの固定予算ベンチマーク

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成医療イベントモデルにおいて入力表現の選択が下流性能に与える影響を切り分けるため、1エポックの固定予算事前学習に基づくベンチマークを提案している。
MIMIC-IVで28の対応モデルを学習し、30の臨床アウトカムで評価したうえで、量子化粒度、基準範囲アンカリング、コード値の融合などの表現バリアントを体系的に比較している。
コード値を融合したトークナイズは、死亡AUROC（0.891→0.915）や入院期間AUROC（0.763→0.788）を有意に改善し、回帰での平均Spearman順位相関（0.414→0.494）も向上させた。
時系列エンコーディングでは、イベント順序のみおよび入院相対RoPEが、平均的に「時間トークンの挿入」より同等以上の性能を示し、シーケンス長を11%短縮した。
ラボ／バイタルのCLIFリマッピングは単一施設の設定で下流性能を維持しつつ、より小さく臨床的に解釈しやすいトークン集合を実現し、多施設利用に適した設計を目指している。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA