強化学習が放射線レポートからの疾患分類におけるLLMの精度と推論力を改善

arXiv cs.AI / 2026/4/22

📰 ニュースModels & Research

共有:

要点

本研究は、放射線レポートから疾患を正確に分類する課題に取り組み、教師あり微調整（SFT）は精度を高める一方で推論の質を損なう可能性がある点を指摘しています。
著者らは2段階の手法として、まず疾患ラベルでSFTを行い、その後、明示的な推論の教師なしで精度と出力形式を最適化するためにGroup Relative Policy Optimization（GRPO）を適用します。
放射線科医が注釈した3つのデータセットでの評価では、SFTがベースラインを上回り、さらにGRPOを加えることで分類性能が一段と向上したことが示されています。
さらに、GRPOは推論ラベルを使わないにもかかわらず、推論のリコールと網羅性（comprehensiveness）といった推論の側面を改善するという結果が報告されています。
総じて、この研究は強化学習によってSFTの「精度と推論のトレードオフ」を緩和できる可能性を示唆しています。

要旨: 医療画像レポートからの正確な疾患分類は、多くの用途にとって不可欠です。軽量LLMの教師あり微調整（SFT）は精度を向上させますが、推論が損なわれる可能性があります。そこで本研究では、2段階のアプローチを提案します。まず疾患ラベルに対してSFTを行い、次にGroup Relative Policy Optimization（GRPO）により、推論の監督なしで精度と形式を最適化することで予測を洗練します。放射線科医が注釈を付けた3つのデータセットにおいて、SFTはベースラインを上回り、さらにGRPOにより分類が一段と改善され、推論の想起率と包括性が高まりました。