FeatEHR-LLM：電子カルテ（EHR）における特徴量エンジニアリングへの大規模言語モデルの活用

arXiv cs.AI / 2026/4/27

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

FeatEHR-LLMは、不規則にサンプリングされた電子カルテ（EHR）の時系列データから、臨床的に意味のある表形式の特徴量を大規模言語モデル（LLM）で自動生成する枠組みです。
観測間隔の不規則性、測定頻度のばらつき、構造的スパース性といったEHR固有の課題に対し、時間データをクエリするツール拡張の仕組みと、観測パターンの不均一性を明示的に扱う特徴抽出コード生成を用いて対応します。
患者プライバシーを守るために、LLMは生の患者データではなく、データセットのスキーマとタスク記述のみを使って特徴量を生成します。
ユニ変量および多変量の特徴量生成を、検証をループに組み込む反復パイプラインでサポートします。
4つのICUデータセットの8つの臨床予測タスクで評価した結果、7/8タスクで平均AUROCが最高となり、強力なベースラインに対して最大6ポイントの改善を達成しました。

Abstract

電子健康記録（EHR）のための特徴量エンジニアリングは、不規則な観測間隔、測定頻度のばらつき、そして臨床時系列に本質的に備わる構造的な疎性によって複雑になります。既存の自動化手法は、臨床領域の知識を欠いているか、あるいはクリーンで規則的にサンプリングされた入力を前提としており、そのため実世界のEHRデータへの適用が制限されています。本研究では、不規則にサンプリングされたEHR時系列から臨床的に意味のある表形式の特徴量を生成するために、大規模言語モデル（LLM）を活用する枠組みである\textbf{FeatEHR-LLM}を提案します。患者のプライバシーへの露出を抑えるため、LLMは生の患者記録ではなく、データセットのスキーマとタスク記述のみを用いて動作します。ツール拡張型の生成メカニズムにより、LLMに不規則な時系列データを照会するための専用ルーチンを備え、観測パターンの不均一性と有益な疎性を明示的に扱う実行可能な特徴抽出コードを生成できるようにします。FeatEHR-LLMは、検証をループに組み込んだ反復的なパイプラインを通じて、単変量および多変量の両方の特徴量生成をサポートします。4つのICUデータセットにまたがる8つの臨床予測タスクで評価したところ、本枠組みは8タスク中7タスクで平均AUROCが最も高く、強力なベースラインに対して最大6パーセントポイントの改善を達成しました。コードはgithub.com/hojjatkarami/FeatEHR-LLMで公開されています。