CT-FineBench:CTレポート生成をきめ細かく評価するための診断忠実度ベンチマーク
arXiv cs.AI / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CTレポート生成の評価は、従来の指標が語彙の一致やエンティティ照合などの粗い尺度にとどまり、臨床で必要となる微細な診断の正確性を反映できないため難しい。
- 本論文では、CT-RATEとMerlinから構築され、疾患指向の臨床属性にわたる「微細な事実整合性」を評価するQAベースのベンチマークCT-FineBenchを提案する。
- CT-FineBenchでは、位置・サイズ・マージンなどの所見固有の属性を抽出して構造化し、ゴールドスタンダードのレポートに基づくQAデータセットへ変換する。
- 評価では、このQAセットで生成されたレポートをクエリし、回答を採点することで、表面的な語彙の一致を超えて具体的な臨床エラーを特定できる。
- 実験の結果、CT-FineBenchは専門家の臨床評価との相関がより高く、従来指標よりも微細な事実誤りに対して大幅に敏感であることが示される。

