全国規模の日本の医療請求データに基づく基盤モデル：モデル拡大とタスク別の計算効率のバランス

arXiv cs.LG / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、構造化された日本の医療請求データを用いた臨床リスク予測において、モデル規模を変えたときの下流性能が単調に良くならない可能性を検証しています。
研究チームは、全国のデータセット（2.3M人の患者、32の病院）から、疾患発生予測と服薬予測のために、5段階のパラメータ規模（2.2M〜101M）のエンコーダのみTransformer基盤モデルを事前学習しました。
下流性能はタスク依存で飽和し、疾患予測はより大きいモデル（32M〜101M）で改善する一方、服薬予測は11Mで飽和して事前学習時間を約178時間削減できることが示されました。
評価した全タスクで、最良の基盤モデルはPrecision-Recall AUCにおいてLight Gradient Boosting Machineのベースラインを一貫して上回りました。
この結果は、前学習損失の単調な低下とは異なり、最適なモデルサイズがタスク特性に応じて変わることを示し、予測性能と計算コストのバランス選定に実務的な指針を与えます。

概要: 縦断的な医療データを用いた臨床リスク予測は、個別化されたケアを支える。自己教師ありの基盤モデルは、大規模なラベルなし医療記録を活用するための有望なアプローチとして登場している。自然言語処理では、スケーリング則により、より大きなモデルほど事前学習損失が予測可能に低下し、基盤モデルのパラダイムを支持する。しかし、語彙が限られ、観測が疎であるという特徴を持つ構造化医療データにおいて、モデルサイズを増やすことが下流予測を一貫して改善するかどうかは不明であり、多くの研究では単一のモデル規模のみを評価している。本研究では、構造化医療基盤モデルにおけるモデル規模と下流タスクの性能の関係を評価した。全国519の病院からなる日本の請求データベースのランダムサンプル（患者230万人、32病院）を用い、疾患発症と薬剤予測のために、5つの規模（2.2M〜101Mパラメータ）のエンコーダのみのTransformerを事前学習した。下流の性能は、タスクに依存した閾値で飽和した。疾患予測はより大きなモデル（32M〜101M）の恩恵を受けた一方、薬剤予測は11Mで飽和し、事前学習時間を178時間削減した。すべてのタスクにおいて、最良の性能を示したモデルは一貫して、精度-再現率曲線下面積（AUPRC）においてLight Gradient Boosting Machineのベースラインを上回った。これらの結果は、事前学習損失が単調に減少するのとは異なり、最適なモデルサイズはタスクの特性に応じて変わることを示している。このタスク依存の飽和は、構造化医療基盤モデルにおける予測性能と計算コストのバランスを取るための実践的な指針を与えるものである。