AI Navigate

RadAnnotate: 効率的で信頼性の高い放射線診断レポート注釈のための大規模言語モデル

arXiv cs.CL / 2026/3/18

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • RadAnnotate は検索強化生成と信頼度に基づく選択的自動化を用いて、RadGraph における放射線診断レポート注釈の専門家によるラベリング作業を削減する。
  • 本研究は、ゴールド標準のレポート上でエンティティ特異的分類器を訓練し、解剖学および観察カテゴリ全体におけるそれらの長所と失敗モードを特徴づけ、不確かな観察の学習が最も難しいことを指摘している。
  • 合成データのみのモデルはゴールド標準で訓練されたモデルと 1-2 F1 ポイントの差しかなく、低リソース環境において不確かな観察に対する合成データ拡張が特に有効で、F1 を 0.61 から 0.70 へ向上させることを示している。
  • エンティティ特異的信頼度閾値を学習することで、RadAnnotate は 0.86-0.92 のエンティティ一致スコアで 55-90% のレポートを自動注釈できる一方、低信頼度のケースを専門家のレビューへ振り分ける。
  • 本研究はエンティティラベリング(グラフノード)に焦点を当て、リレーション抽出(エッジ)は今後の課題とする。

概要: 放射線診断レポートのアノテーションは臨床NLPにとって不可欠ですが、手動ラベリングは遅くコストがかかります。私たちはRadAnnotateを提示します。これは、検索強化型の合成レポートと信頼度ベースの選択自動化を研究するLLMベースのフレームワークで、RadGraphにおけるラベリングの専門家の労力を軽減します。RadGraphスタイルのエンティティラベリング(グラフノード)を研究し、リレーション抽出(エッジ)は今後の課題とします。まず、金標準レポート上でエンティティ特異的な分類器を訓練し、解剖学および観察カテゴリ全体における強みと故障モードを特徴づけ、学習が最も難しいのは不確かな観察です。次に、RAG誘導の合成レポートを生成し、合成のみのモデルが金標準で訓練されたモデルと1〜2F1ポイントの差内に留まること、そして低リソース設定において不確かな観察に対する合成増強が特に有用であり、F1を0.61から0.70へ改善することを示します。最後に、エンティティ特異的な信頼閾値を学習することにより、RadAnnotateは0.86-0.92のエンティティマッチスコアで55-90%のレポートを自動的にアノテーションし、低信頼ケースを専門家レビューへ振り分けます。