MedVR:エージェント型強化学習による、注釈不要の医療視覚推論

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、テキストのみのパラダイムに依存するのではなく、視覚的根拠に基づいて推論を行うことで、医療ビジョン言語モデル(VLM)の推論力を高めることを目的とした、注釈不要の強化学習フレームワークMedVRを提案する。
  • MedVRは2つの主要な仕組みを導入する。1つ目はモデルの不確実性を用いて探索を導くEntropy-guided Visual Regrounding(EVR)である。2つ目はロールアウトの合意に基づいて疑似教師信号を作るConsensus-based Credit Assignment(CCA)である。
  • MedVRは中間の推論ステップに人手による注釈を必要としないため、視覚的な幻覚が問題となり得る、安全性が重要な臨床現場におけるより安全で頑健な視覚推論を目指している。
  • 著者らは、複数の公開医療VQAベンチマークで最先端の結果を報告しており、既存手法に対して大幅な改善が得られたと主張している。

Abstract

医療用ビジョン・言語モデル(VLMs)は複雑な臨床タスクに対して大きな可能性を秘めていますが、その推論能力はしばしば、推論を視覚的証拠に結び付けられないテキストのみのパラダイムによって制約されます。この制限は、きめ細かな視覚分析を要するタスクでの性能を損なうだけでなく、安全性が重要なアプリケーションにおいて視覚的幻覚のリスクも生み出します。そこで本稿では、医療VLMのための注釈不要の視覚推論を可能にする、新しい強化学習フレームワークであるMedVRを提案します。その中核となる革新は、相乗的な2つのメカニズムにあります。Entropy-guided Visual Regrounding(EVR)はモデルの不確実性を用いて探索を導き、Consensus-based Credit Assignment(CCA)はロールアウトの一致から疑似教師信号を蒸留します。中間ステップに対して人手による注釈を一切用いずに、MedVRは多様な公開医療VQAベンチマークにおいて最先端の性能を達成し、既存モデルを大きく上回ります。視覚的証拠を直接用いて推論することを学ぶことで、MedVRは、医療AIの臨床導入を加速するために不可欠な堅牢性と透明性を促進します。

MedVR:エージェント型強化学習による、注釈不要の医療視覚推論 | AI Navigate