MedLVR:信頼性の高い医療ビジュアル質問応答のための潜在視覚推論
arXiv cs.CV / 2026/4/14
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、既存のVLMが画像に対して静的でテキストに偏った推論に過度に依存してしまうという制約に対処する、医療ビジュアル質問応答のための潜在視覚推論フレームワーク「MedLVR」を提案する。
- MedLVRは、自 autoregressive(自己回帰)デコーディングにおいて明示的な潜在視覚エビデンス状態を追加し、クエリに関連する視覚情報を反復的に保持・洗練する短い潜在推論ステップを挿入することで実現する。
- 学習は2段階で行う。まず、臨床的に関連する領域と潜在状態を整合させるためのROI(関心領域)教師あり微調整を行い、その後、結果(アウトカム)レベルの報酬を用いて潜在推論と回答生成の両方を最適化するVisual-Latent Policy Optimization(VLPO)を実施する。
- OmniMedVQAおよび追加の5つの医療VQAベンチマークで実験を行った結果、推論ベースラインに対して一貫した改善が確認される。具体的には、Qwen2.5-VL-7Bバックボーンの平均スコアが48.3%から53.4%へ向上した。



