大規模言語モデルは冠動脈造影レポートから生理学的指標(フィジオロジー・インデックス)値を信頼性高く抽出できるか?

arXiv cs.CL / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、非構造化の冠動脈造影(CAG)レポートから、生理学的指標値とその解剖学的位置を大規模言語モデルが信頼性高く抽出できるかを評価し、ポルトガルの臨床テキストに焦点を当てる。
  • 1,342件のレポートからなるコーパスを用いて研究を行い、CAGレポートにおける生理学的指標の抽出をこの規模で扱った最初の試みとして、またCAG/ポルトガル語の臨床言語を対象とする数少ない取り組みの一つとして提示される。
  • ローカルでプライバシーを保護する一般用途および医療用LLMを、複数のプロンプト戦略(ゼロショット、フューショット、そして不自然な例を用いたフューショット)で比較し、制約付き生成とRegExベースの後処理ステップを検証する。
  • 著者らは、臨床における誤りのコストが非対称である点を考慮しつつ、フォーマット妥当性、値の検出、値の正しさをそれぞれ別々に測定する多段階の評価枠組みを提案する。
  • 結果は、非医療モデルでも同等の性能を発揮しうることを示す。最良の総合性能はゼロショット・プロンプトでのLlamaに報告され、プロンプト変更への頑健性が最も高いのはGPT-OSSであった。一方で、制約付き生成やRegExによる補強は、ほとんどのモデルの結果を有意に改善しなかった。

Abstract

心臓動脈造影(CAG)レポートには臨床的に関連する生理学的測定値が含まれますが、この情報は通常、非構造化の自然言語という形で記載されており、研究での利用が制限されています。本研究では、大規模言語モデル(LLM)を用いて、ポルトガル語のCAGレポートから、これらの値とそれらの解剖学的位置を自動的に抽出することを検討します。私たちの知る限り、本研究はCAGレポートの大規模コーパス(1342件)に対して生理学的指標の抽出に取り組んだ最初の試みであり、またCAGまたはポルトガル語の臨床テキストに焦点を当てる数少ない研究の一つです。 本研究では、異なる設定の下で、ローカルなプライバシー保護型の汎用LLMおよび医療用LLMを調査します。プロンプト戦略には、ゼロショット、フューショット、そして不 plausibly(信じがたい)な例を用いたフューショット・プロンプトを含めました。さらに、制約付き生成を適用し、RegExに基づく後処理ステップも導入します。測定値が疎であることを踏まえ、フォーマットの妥当性、値の検出、値の正確性を分離したマルチステージの評価フレームワークを提案し、非対称的な臨床的誤りコストも考慮します。 本研究は、ポルトガル語のCAGレポートから生理学的指標を抽出するうえでのLLMの可能性を示しています。非医療モデルは同程度の性能を示し、最良の結果はゼロショット・プロンプトを用いたLlamaで得られました。一方でGPT-OSSは、プロンプト変更に対する頑健性が最も高いことが示されました。MedGemmaは非医療モデルと同程度の結果を示したものの、MedLlamaは制約なしの設定ではフォーマットが不適合な結果となり、制約付きの設定では大幅に性能が低下しました。プロンプト手法の変更とRegExレイヤの追加は、モデル全体で有意な改善を示しませんでした。制約付き生成は性能を低下させましたが、テンプレートに適合できない特定のモデルを利用できるという利点がありました。