VERT:放射線レポート評価のための信頼性の高いLLMジャッジ

arXiv cs.AI / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、放射線レポートを評価するためのLLMベースの指標であるVERTを提案し、従来のLLM-ジャッジ手法が異なる画像モダリティや解剖領域に対してどの程度一般化できるかという不確実性に取り組む。
  • 専門の放射線科医による評価とLLMジャッジの出力との間の包括的な相関研究を行い、RadFact、GREEN、FineRadScore、ならびにVERTを、推論能力やモデルサイズが異なるオープン/クローズドソースモデルで比較する。
  • RadEvalおよびRaTE-Evalデータセットでの実験により、few-shotプロンプト、アンサンブル、パラメータ効率の高い微調整(主にRaTE-Evalに焦点)を評価し、効果的なジャッジ構成を特定する。
  • 結果として、VERTはGREENに対して最大11.7%(相対)まで放射線科医の判断との相関を改善できることが示され、さらに微調整したQwen3 30Bでは、わずか1,300サンプルで最大25%の向上を達成できる。
  • そのほか、系統的な誤差分析により、LLM指標が専門家の判断とどこで一致または乖離するのかを特徴づけ、微調整によって推論時間を最大37.2×削減できることも報告している。