概要: 大規模言語モデル(LLM)は多くの領域にわたって変革的な解決策を提供しますが、ヘルスケアへの統合は厳格なデータプライバシー制約によって妨げられています。臨床ナラティブ(診療記録の記述)は曖昧な略語で密に構成されており、これらの略語を誤って解釈すると、生命を脅かすような薬剤投与ミスといった深刻な結果につながり得ます。クラウド依存型のLLMは略語の曖昧性解消に優れていますが、保護された健康情報(PHI)を外部サーバーに送信することはプライバシーの枠組みに違反します。このギャップを埋めるために、本研究はプライバシーを確実に保護するために、完全にオンデバイス上に展開された小パラメータ・モデルの評価を先駆的に提案します。一般用途のローカル・モデルを用いて臨床略語を検出し、それらを領域特化の生物医学モデルへルーティングして文脈に即した展開(補完)を行う、プライバシー保護型のカスケード処理パイプラインを導入します。結果として、一般的な指示追従モデルは高い検出精度(約0.988)を達成する一方で、その展開能力は大幅に低下します(約0.655)。私たちのカスケード手法では、領域特化の医療モデルを用いることで、展開精度を(約0.81)まで高めます。本新規の取り組みは、プライバシー保護のオンデバイス(2B-10B)モデルが高忠実度の臨床略語の曖昧性解消支援を提供できることを示しています。
PLACID:頭字語の臨床推論と曖昧性解消のためのプライバシー保護型大規模言語モデル
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、クラウドのLLMに保護されたヘルス情報(PHI)を送信せず、完全にオンデバイスで動作する臨床頭字語推論および曖昧性解消のためのプライバシー保護アプローチ「PLACID」を提案する。
- 複数段(カスケード)構造のパイプラインを用い、まずローカルの汎用モデルが臨床頭字語を検出し、その後、領域特化型の生物医学モデルにルーティングして、文脈に即した展開(正式名称への置換)を生成する。
- 著者らは、汎用の指示追従型モデルが頭字語検出の精度では高い性能(約0.988)を達成できる一方、展開の品質では顕著に低下(約0.655)し、安全な臨床利用のためのギャップが生じることを見出す。
- 展開には領域特化型の生物医学モデルに切り替えることで、カスケード手法は展開精度を約0.81まで改善しつつ、約20億〜100億パラメータの小型モデルを用いることでオンデバイス制約も満たす。
- 本研究は、頭字語の曖昧性解消を「高いリスクを伴う医療タスク」と位置づけ、プライバシー保護型の展開によって、略語の誤解釈によって引き起こされうる致命的な薬剤ミスのリスクを低減できることを示す。