LUNGUAGE:構造化および逐次的な胸部X線読影のためのベンチマーク

arXiv cs.CL / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単一レポートの評価に加えて、複数検査にまたがる患者レベルの縦断評価も可能にする、胸部X線の構造化レポート生成向けベンチマーク「LUNGUAGE」を提案する。
  • LUNGUAGEには、専門家が注釈した1,473件の胸部X線レポートに加え、病状の進行や検査間隔を捉える縦断注釈を含む186件のサブセットが含まれており、これらも専門家によってレビューされている。
  • 生成されたレポートを、細粒度でスキーマに整合した構造化レポートへ変換するための2段階の構造化フレームワークを提示し、縦断的な読影を可能にしている。
  • 「LUNGUAGESCORE」という解釈可能な評価指標を提案しており、エンティティ・関係・属性のレベルで構造化出力を比較しつつ、患者のタイムライン間での時間的一貫性も考慮する。
  • 本研究は、逐次的な放射線レポーティングに焦点を当てた最初のベンチマークデータセット、構造化手法、評価指標であることを掲げ、実験結果からLUNGUAGESCOREが構造化レポート評価を効果的に支えることを示している。

概要: 放射線科レポートは、詳細な臨床観察を伝え、時間とともに変化していく診断上の推論を捉えます。しかし、既存の評価手法は単一レポートの状況に限定されており、微細な臨床的セマンティクスや時間的依存関係を捉えられない粗い指標に依存しています。私たちは、構造化された放射線レポート生成のためのベンチマークデータセットであるLUNGUAGEを導入します。これにより、単一レポートの評価と、複数の研究にまたがる縦断的な患者レベル評価の両方が可能になります。ここには、専門家によって確認された1,473件の注釈付き胸部X線レポートが含まれており、そのうち186件には、疾患の進行や研究間隔を捉えるための縦断注釈が含まれています(これらも専門家によって確認されています)。このベンチマークを用いて、生成されたレポートを、微細でスキーマに整合した構造化レポートへと変換する2段階の構造化フレームワークを開発し、縦断的な解釈を可能にします。また、LUNGUAGESCOREという、解釈可能な指標も提案します。これは、患者の時系列にわたる時間的整合性をモデル化しつつ、エンティティ、関係、属性のレベルで構造化出力を比較します。これらの貢献により、連続する放射線レポーティングのための最初のベンチマークデータセット、構造化フレームワーク、評価指標が確立されます。実験結果は、LUNGUAGESCOREが構造化レポートの評価を効果的に支援することを示しています。コードは次の場所で入手できます: https://github.com/SuperSupermoon/Lunguage