根拠に応じた報酬と自己修正型嗜好学習による放射線レポート生成のための強化学習の強化

arXiv cs.LG / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、臨床的信頼性（faithfulness）を高めるために、弱いレポート単位の報酬信号という課題に対処し、放射線レポート生成を改善するための「根拠に応じた自己修正型強化学習（Evidence-aware Self-Correcting Reinforcement Learning: ESC-RL）」を提案する。
ESC-RL は、真の陽性を強化し、偽陰性を回復し、根拠のない偽陽性を抑制するためのグループ単位のフィードバックを与える「GEAR（Group-wise Evidence-aware Alignment Reward）」を導入する。
さらに、ノイズを含む複数の観測から疾患に応じた嗜好データセットを構築し、人間の監督なしでLLM（大規模言語モデル）を用いて洗練されたレポートを合成する「SPL（Self-correcting Preference Learning）」を追加する。
2つの公開されている胸部X線データセットでの実験により、安定した性能向上と最先端（state-of-the-art）の結果が示されており、学習中に ESC-RL がより根拠に基づき、かつ嗜好に整合した出力をもたらすことが示唆される。

要旨: 近年の強化学習（RL）のアプローチは、放射線科レポート生成（RRG）を発展させてきましたが、なお2つの中核的な制約が残っています。（1）レポート単位の報酬は、臨床的な忠実性に関して十分に根拠に基づいたガイダンスを提供できないこと、そして（2）現在の手法には、臨床的な嗜好に整合するための明示的な自己改善メカニズムが欠けていることです。私たちは、臨床に整合したエビデンス対応型自己修正強化学習（ESC-RL）を導入します。これは2つの重要な構成要素から成ります。第一に、群単位のエビデンス対応型アラインメント報酬（GEAR）を用いて、群単位かつエビデンスに配慮したフィードバックを提供します。GEARは、真陽性に対して一貫した根拠付けを強化し、偽陰性で見落とされた所見を回復し、偽陽性で支持されない内容を抑制します。第二に、自己修正型嗜好学習（SPL）戦略によって、複数のノイズの多い観測から疾患に気づいた信頼できる嗜好データセットを自動的に構築し、人間の監督なしにLLMを用いて洗練されたレポートを合成します。ESC-RLは、臨床的に忠実で疾患に整合した報酬を促進し、学習中の継続的な自己改善を支援します。2つの公開された胸部X線データセットでの大規模実験により、一貫した改善と最先端の性能が示されました。