要旨: 構造化された電子カルテ(EHR)向けの基盤モデルは、時系列のタイムスタンプ付き臨床イベントの連続データに基づいて事前学習され、適応可能な患者表現を学習します。トークン化――これらのタイムラインが離散的なモデル入力へどのように変換されるか――は、どの情報が保持されるか、どの程度効率的に符号化されるか、そしてどの関係を学習する必要があり、前もって計算されているかを決定します。しかし、トークン化設計の選択が下流の性能と計算効率に及ぼす影響は、まだ十分には検討されていません。 本研究では、因子設計のもとで小児EHRデータに対してトランスフォーマーを事前学習し、イベントエンコード、時間エンコード、ワークフロー注釈に沿ってトークン化を変化させました。私たちは、74の臨床予測タスクに対してROC曲線下面積(AUC)を評価しました。イベントエンコードと位置情報付き時間エンコードの結合は、他の選択肢を上回り(73/74タスク、71/74タスク)、それぞれ事前学習時の浮動小数点演算を39.5%、9.6%少なく要しました。標的化されたアブレーションにより、結合エンコードの利点は局所的結合効率に起因することが示されました。つまり、コード-属性ペアが単一のトークンに結合され、前学習中にモデルが関連付けて学習する必要がある複数のトークンに分割されるのではない、ということです。成人ICUコホートでの外部評価は、この利点が語彙の大幅な不一致にもかかわらず一般化することを示した一方、時間的およびワークフローの効果は機関特有であることが示されました。これらの結果は、トークン化をEHR基盤モデルの性能と効率の向上に寄与する扱いやすい手段として位置づける。
構造化されたEHR基盤モデルにおけるトークン化のトレードオフ
arXiv cs.LG / 2026/3/18
📰 ニュースModels & Research
要点
- 本研究は、小児EHRデータを用いてトランスフォーマーを事前学習させる際、イベントエンコーディング、時間エンコーディング、ワークフロー注釈という三つの軸に沿って因子分解的に変化させた。
- イベントエンコーディングと位置付きの時間エンコーディングを組み合わせたアプローチは、他の選択肢を上回り(73/74タスクと71/74タスク)、それぞれ事前学習のFLOPsを39.5%および9.6%削減した。
- この利点は局所的結合効率に起因するとされ、コード-属性ペアを単一トークンに結合しており、モデルが関連付けを学習する必要がある複数のトークンへ分割されることはない。
- 成人ICUコホートを用いた外部評価では、語彙の不一致にもかかわらず利得が一般化することが示されたが、時間的およびワークフローの効果は施設特有のように見える。
- これらの所見は、EHR基盤モデルにおける性能と効率の向上を実現する実用的な手段として、トークン化を位置づけている。




