反復型マルチモーダル・リトリーバル拡張生成による医療質問応答
arXiv cs.AI / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、MED-VRAGという反復型マルチモーダルRAG手法を提案し、OCR化したテキスト断片ではなくPMCの元ページ画像を検索・推論に利用する医療QAを扱っています。
- MED-VRAGはパッチ単位のページ埋め込みとオフラインのcoarse-to-fineインデックスを用い、Stage-1の検索を30 ms未満に抑えつつ約35万ページへスケールします。
- ビジョン・ランゲージ・モデルがクエリを段階的に洗練し、最大3ラウンドの推論でメモリバンクに証拠を蓄積します(4xA100上で1反復あたり約15.9秒、全体パイプラインは約47.8秒)。
- 4つの医療QAベンチマーク(MedQA、MedMCQA、PubMedQA、MMLU-Med)で平均78.6%の精度を達成し、検索の有無による比較では検索導入が“検索なし基準”に対して+5.8ポイント寄与しています。
- アブレーションにより、ページ画像検索の採用(+1.0)、反復(+1.5)、メモリバンク(+1.0)がそれぞれ改善に寄与することが示され、マルチモーダルな証拠の扱いが回答品質を高める要因になります。




