要旨: 多モーダル検索拡張生成(MM-RAG)は、画像質問クエリに対して最も関連性の高いエビデンスを提示するために、再ランカーに大きく依存しています。しかし、標準的な再ランカーは通常、クエリ画像全体をグローバル埋め込みとして処理するため、視覚的な撹乱要因(例:背景のごちゃごちゃ)によって類似度スコアが歪められやすくなります。本研究では、Region-R1を提案します。これは、再ランク時の意思決定問題として領域選択を定式化する、クエリ側の領域クロッピングの枠組みです。これにより、取得した候補をスコアリングする前に、システムが画像全体を保持するか、質問に関連する領域のみに注目するかを学習できるようになります。Region-R1は、新規の領域認識型グループ相対ポリシー最適化(r-GRPO)により、識別的な領域を動的に切り出す方策を学習します。2つの難しいベンチマークであるE-VQAとInfoSeekにおいて、Region-R1は一貫した改善を示し、条件付きRecall@1を最大20%引き上げることで最先端の性能を達成します。これらの結果は、MM-RAGの再ランランキングを強化するための、単純だが効果的な方法としてのクエリ側適応に大きな期待があることを示しています。
Region-R1: マルチモーダル再ランキングのためのクエリ側リージョン・クロッピング強化
arXiv cs.CL / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、MM-RAGの再ランカーが視覚的な注意逸らし(ディストラクタ)に誤誘導され得ることを論じている。これは、画像—質問クエリに対してしばしば検索候補を、画像の全体を表すグローバル埋め込みを用いてスコアリングしてしまうためである。
- そこで、Region-R1を提案する。これは再ランキングの前に、質問に関連する領域へ切り出すか、画像全体を用いるかを判断する方策(ポリシー)を学習する、クエリ側のリージョン・クロッピングの枠組みである。
- Region-R1は、リージョン選択を意思決定問題として定式化し、リージョン認識型のグループ相対ポリシー最適化手法(r-GRPO)を用いて学習する。
- E-VQAおよびInfoSeekでの実験では、一貫した改善が示されており、条件付きRecall@1で最大20%高い結果が得られるほか、評価した設定において先端(SOTA)の性能が報告されている。


