放射線レポート生成のための較正済み信頼度表現

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、医療用LVLMに対する強化学習のファインチューニング手法ConRadを提案する。ConRadは、放射線レポートを生成すると同時に、較正され言語化された信頼度推定を出力し、より安全な臨床レビューを支援する。
現在の言語モデルは過度に自信的になりがちな問題に対処し、レポート全体の単一の信頼度スコアと、各主張ごとの文レベルの信頼度の両方を検討する。
ConRadはGRPOを用い、対数スコアリングルールに基づく報酬関数によって、真に即した自己評価を促し、誤った較正（miscalibration）を罰することで較正を改善する。
実験の結果、競合手法に比べて大きな較正向上が示され、臨床評価ではConRadのレポート全体の信頼度が臨床医の判断とよく一致することが確認された。
このアプローチにより、信頼度の低い記述やレポート全体をフラグ付けして、放射線科医による選択的な検証を可能にする。狙いは、幻覚的（ハルシネーション）な所見が臨床判断に与える影響を低減することにある。

Abstract

放射線レポート生成においてLarge Vision-Language Models（LVLMs）を安全にデプロイするには、正確な予測だけでなく、出力を徹底的に見直すべきタイミングを臨床的に解釈可能な形で示す指標が必要です。これにより、選択的な放射線科医の検証が可能になり、幻覚的な所見が臨床判断に影響を与えるリスクを低減できます。直感的なアプローチの1つが、言語化された信頼度です。これは、モデルが自らの確実性を明示的に述べるものです。しかし、現在の最先端の言語モデルはしばしば過度に自信を示してしまい、放射線レポート生成のようなマルチモーダル環境におけるキャリブレーション（較正）に関する研究は限られています。このギャップに対処するために、ConRad（Confidence Calibration for Radiology Reports）を提案します。ConRadは、強化学習の枠組みにより、医療用LVLMを微調整して、放射線レポートとともに較正された言語化信頼度推定を生成させる手法です。私たちは2つの設定を検討します。1つはレポート全体の信頼度スコア、もう1つは各主張（クレーム）に対して個別に信頼度を割り当てる文（センテンス）レベルの変種です。これらはすべて、ログスコアリングルールに基づく報酬関数を用いて、GRPOアルゴリズムで学習します。ログスコアリングルールは、キャリブレーションの誤りを罰することで、真実に基づく自己評価を動機づけ、報酬最大化において最適なキャリブレーションを保証します。実験の結果、ConRadはキャリブレーションを大幅に改善し、競合手法よりも優れました。臨床評価では、ConRadのレポートレベルのスコアが臨床医の判断とよく一致することを示します。さらに、全文レポートや低信頼度の記述を対象的にレビューできるようにすることで、ConRadはレポート生成におけるAI支援のより安全な臨床統合を支援できます。