大規模言語モデルは冠動脈造影レポートから生理学的指標(フィジオロジー・インデックス)値を信頼性高く抽出できるか?
arXiv cs.CL / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、非構造化の冠動脈造影(CAG)レポートから、生理学的指標値とその解剖学的位置を大規模言語モデルが信頼性高く抽出できるかを評価し、ポルトガルの臨床テキストに焦点を当てる。
- 1,342件のレポートからなるコーパスを用いて研究を行い、CAGレポートにおける生理学的指標の抽出をこの規模で扱った最初の試みとして、またCAG/ポルトガル語の臨床言語を対象とする数少ない取り組みの一つとして提示される。
- ローカルでプライバシーを保護する一般用途および医療用LLMを、複数のプロンプト戦略(ゼロショット、フューショット、そして不自然な例を用いたフューショット)で比較し、制約付き生成とRegExベースの後処理ステップを検証する。
- 著者らは、臨床における誤りのコストが非対称である点を考慮しつつ、フォーマット妥当性、値の検出、値の正しさをそれぞれ別々に測定する多段階の評価枠組みを提案する。
- 結果は、非医療モデルでも同等の性能を発揮しうることを示す。最良の総合性能はゼロショット・プロンプトでのLlamaに報告され、プロンプト変更への頑健性が最も高いのはGPT-OSSであった。一方で、制約付き生成やRegExによる補強は、ほとんどのモデルの結果を有意に改善しなかった。