反復型マルチモーダル・リトリーバル拡張生成による医療質問応答

arXiv cs.AI / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、MED-VRAGという反復型マルチモーダルRAG手法を提案し、OCR化したテキスト断片ではなくPMCの元ページ画像を検索・推論に利用する医療QAを扱っています。
MED-VRAGはパッチ単位のページ埋め込みとオフラインのcoarse-to-fineインデックスを用い、Stage-1の検索を30 ms未満に抑えつつ約35万ページへスケールします。
ビジョン・ランゲージ・モデルがクエリを段階的に洗練し、最大3ラウンドの推論でメモリバンクに証拠を蓄積します（4xA100上で1反復あたり約15.9秒、全体パイプラインは約47.8秒）。
4つの医療QAベンチマーク（MedQA、MedMCQA、PubMedQA、MMLU-Med）で平均78.6%の精度を達成し、検索の有無による比較では検索導入が“検索なし基準”に対して+5.8ポイント寄与しています。
アブレーションにより、ページ画像検索の採用（+1.0）、反復（+1.5）、メモリバンク（+1.0）がそれぞれ改善に寄与することが示され、マルチモーダルな証拠の扱いが回答品質を高める要因になります。