MedVR:エージェント型強化学習による、注釈不要の医療視覚推論
arXiv cs.CV / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、テキストのみのパラダイムに依存するのではなく、視覚的根拠に基づいて推論を行うことで、医療ビジョン言語モデル(VLM)の推論力を高めることを目的とした、注釈不要の強化学習フレームワークMedVRを提案する。
- MedVRは2つの主要な仕組みを導入する。1つ目はモデルの不確実性を用いて探索を導くEntropy-guided Visual Regrounding(EVR)である。2つ目はロールアウトの合意に基づいて疑似教師信号を作るConsensus-based Credit Assignment(CCA)である。
- MedVRは中間の推論ステップに人手による注釈を必要としないため、視覚的な幻覚が問題となり得る、安全性が重要な臨床現場におけるより安全で頑健な視覚推論を目指している。
- 著者らは、複数の公開医療VQAベンチマークで最先端の結果を報告しており、既存手法に対して大幅な改善が得られたと主張している。


