Ran Score:放射線レポート生成のためのLLMベース評価スコア
arXiv cs.AI / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、放射線レポート生成に対する、所見レベルの評価指標であるRan Scoreを提案する。これはLLMベースであり、低有病率の異常認識や、臨床的に重要な言語(否定・曖昧さ)への対応といった課題を対象としている。
- 臨床医によるガイド付きの枠組みを提案し、人間の専門知識と大規模言語モデルによるプロンプトを組み合わせることで、自由記述の胸部X線レポートからマルチラベルの所見抽出を行う。
- 3つの非重複MIMIC-CXR-ENコホートに加え、独立したChestX-CNの検証コホートを用いて、著者らはプロンプトを最適化し、レポート生成モデルの評価のために放射線科医ベースの参照ラベルを導出する。
- 最適化した手法により、MIMIC-CXR-ENの開発コホートでマクロ平均スコアが0.753から0.956へと向上し、比較可能なラベルにおいてCheXbertベンチマークを15.7ポイント上回る。
- 結果はChestX-CNへの頑健な汎化を示しており、特に低有病率の異常の検出において、Ran Scoreが忠実度(fidelity)評価の改善に役立つ可能性を示唆している。