要旨: 米国における医師のバーンアウトは、電子カルテ(EHR)による文書作成の管理負担や、複雑な診断コードによって一部は引き起こされ、臨界的な水準に達しています。この負荷を軽減し、厳格な患者プライバシーを維持するため、本論文では、オンデバイスでオフライン動作する自動医療コーディングシステムを探究します。本研究は、クラウドベースのサービスに依存せず、医師の記載メモから臨床情報を抽出し、それをICD-10-CMの診断コードへ変換するために、オープンウェイトの大規模言語モデル(LLM)を用いることに焦点を当てています。
プライバシー重視のパイプラインは、Ollama、LangChain、そしてコンテナ化された環境を用いて開発されました。消費者向けのハードウェア上で、Llama 3.2、Mistral、Phi、DeepSeek を含む複数のオープンウェイトモデルを評価しました。モデルの性能は、合成医療メモの新規ベンチマークを用いて、ゼロショット、少数ショット、および検索拡張生成(RAG)によるプロンプト戦略について評価しました。
結果は、厳密なJSONスキーマ強制によってフォーマット遵守率がほぼ100%となる一方、特定の診断コードを正確に生成することは、より小規模なローカルモデル(7B〜20Bパラメータ)では依然として困難であることを示しました。一般的なプロンプトエンジニアリングの指針に反して、少数ショットは過学習と幻覚によって性能を低下させました。RAGは未見のコードの限定的な発見を可能にしましたが、しばしばコンテキストウィンドウを飽和させ、その結果として全体の精度が低下しました。これらの知見は、ローカルのオープンソースモデルによる完全自動の教師なしコーディングは、現時点では信頼できないことを示唆しています。その代わりに、現在もっとも現実的な前進の道は、ヒューマン・イン・ザ・ループによる支援付きコーディングです。本研究は、プライバシー保護を目的とした医療情報抽出とコーディングのための、再現可能なローカルLLMアーキテクチャとベンチマークデータセットに貢献します。
大規模言語モデルを活用して、医師の診療メモから医療情報を抽出し、医療記録および診断の請求コードへ翻訳する
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、クラウドサービスを使わない、プライバシー保護型のオンデバイス・オフラインシステムを提案する。具体的には、オープンウェイトのLLMを用いて医師のメモから医療的事実を抽出し、それをICD-10-CMの診断用課金コードに対応付ける。
- Ollama、LangChain、コンテナ化によるデプロイとともに、合成の医療メモ・ベンチマークを併用し、一般向けのハードウェア上で複数のローカルなオープンウェイトモデル(例:Llama 3.2、Mistral、Phi、DeepSeek)を評価する。
- 厳密なJSON出力スキーマを強制することで、フォーマット遵守はほぼ100%に達するが、正しい特定の診断コードを生成することは依然として難しい。特に、パラメータ数が小さい7B〜20Bモデルでは顕著である。
- 少数ショットのプロンプトは、過学習や幻覚(ハルシネーション)により結果を悪化させ得る一方で、検索拡張生成(RAG)は未見のコードを発見するのに役立つが、多くの場合コンテキストウィンドウの飽和に悩まされる。
- 著者らは、ローカルのオープンソース・モデルによる完全自動の教師なしコーディングはまだ信頼できないと結論づけており、人手を介したワークフローを推奨する。その一方で、再現可能なローカルLLMパイプラインおよびベンチマークデータセットを提供する。