MRG-R1：臨床的に整合した医療レポート生成のための強化学習

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

医用画像から放射線科レポートを生成するタスクで、従来のトークン単位の尤度学習は表面的な文字列一致を優先し、医学的正しさが目的関数に十分に反映されないという課題を指摘しています。
このギャップを埋めるため、MRG-R1はレポート全体の臨床的正確性を直接最適化する意味駆動型の強化学習（SRL）フレームワークを提案しています。
中核となるのは臨床に根差したレポートレベル報酬関数で、生成文と参照文の「臨床的に重要な所見」に関する意味的な一致を強化し、表層の言語整合以上の学習制約を与えます。
評価では、臨床的に関連する所見の精度とカバレッジが改善され、IU X-RayおよびMIMIC-CXRのベンチマークで最先端（SOTA）の臨床的有効性を達成したと報告されています。

概要: 医療レポート生成は、医用画像から放射線科スタイルのレポートを自動的に作成し、効率的かつ正確な臨床的意思決定を支援することを目的としています。しかし、既存のアプローチの大半はトークンレベルの尤度学習に主として依存しており、局所的な語彙の一致を促す一方で、訓練目的において臨床的正しさが十分に特定されていません。この挙動は、トークンレベルの尤度最適化に起因すると考えられます。トークンレベルの尤度最適化は表層の表記一致に対して報酬を与えるため、医学的に正確な所見に関する制約を直接的にエンコードできません。こうした目的の不一致に対処するため、医療レポート生成のためのセマンティック駆動の強化学習（SRL）フレームワークを提案します。名称はMRG-R1であり、トークンレベルの尤度ではなく、レポートレベルの臨床的正しさを直接最適化します。主要なモジュールは、臨床に基づくレポートレベルの報酬関数で、生成レポートと参照レポート間の臨床的に関連する所見において意味的な一致を強化します。これにより、表層的な言語的整合にとどまらず医学的正しさを明示的に制約する学習シグナルが可能になります。評価の結果、提案フレームワークは生成レポートにおける臨床的に関連する所見の正確性とカバレッジを改善し、またMRG-R1はIU X-RayおよびMIMIC-CXRのベンチマークデータセットにおいて最先端の臨床的有効性を達成していることが示されました。