MedLVR：信頼性の高い医療ビジュアル質問応答のための潜在視覚推論

arXiv cs.CV / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、既存のVLMが画像に対して静的でテキストに偏った推論に過度に依存してしまうという制約に対処する、医療ビジュアル質問応答のための潜在視覚推論フレームワーク「MedLVR」を提案する。
MedLVRは、自 autoregressive（自己回帰）デコーディングにおいて明示的な潜在視覚エビデンス状態を追加し、クエリに関連する視覚情報を反復的に保持・洗練する短い潜在推論ステップを挿入することで実現する。
学習は2段階で行う。まず、臨床的に関連する領域と潜在状態を整合させるためのROI（関心領域）教師あり微調整を行い、その後、結果（アウトカム）レベルの報酬を用いて潜在推論と回答生成の両方を最適化するVisual-Latent Policy Optimization（VLPO）を実施する。
OmniMedVQAおよび追加の5つの医療VQAベンチマークで実験を行った結果、推論ベースラインに対して一貫した改善が確認される。具体的には、Qwen2.5-VL-7Bバックボーンの平均スコアが48.3%から53.4%へ向上した。

Abstract

医療ビジョン--言語モデル（VLM）は医療向け視覚質問応答（VQA）において強い可能性を示している一方で、その推論は依然として主にテキスト中心です。すなわち、画像は静的なコンテキストとして一度エンコードされ、その後の推論は言語によって支配されます。このパラダイムは臨床シナリオでは本質的に制約があります。臨床では、正確な答えは微妙で局所的な視覚的根拠に依存することが多く、それは静的埋め込みとして確実に保持できない場合があります。そこで我々は、自己回帰デコーディングに明示的な視覚的根拠状態を導入する潜在視覚推論フレームワークである extsc{MedLVR}を提案します。テキストベースの中間推論のみに依存する代わりに、 extsc{MedLVR}は、隠れ状態を連続的な潜在ステップとして再利用することで、デコーダ内に短い潜在推論セグメントを織り込みます。これにより、答えの生成の前に、クエリに関連する視覚的根拠を反復的に保持し洗練することが可能になります。効果的な視覚的教師信号を支えるために、我々は二段階の学習戦略を採用します。すなわち、関心領域（ROI）に基づく教師付きファインチューニングにより潜在状態を臨床的に関連する画像的根拠へ整合させ、Visual-Latent Policy Optimization（VLPO）によって、アウトカム（結果）レベルの報酬のもとで潜在推論と答えの生成をさらに最適化します。OmniMedVQA と、外部の医療VQAベンチマーク5つでの実験により、 extsc{MedLVR}が最近の推論ベースラインを一貫して上回り、Qwen2.5-VL-7Bバックボーン上で平均スコアが48.3 ext%から53.4 ext%へ改善することが示されます。これらの結果は、潜在視覚推論が診断に関連する視覚的根拠を保持するための有効なメカニズムであり、医療VQAの信頼性を向上させることを示しています。