概要: 視覚と言語を結ぶモデル(VLM)はデータの対応付けに長けているが、現実世界の文書の多様性と非構造性は、クロスモーダル埋め込み의 一貫性を乱す。近年の後段インタラクション手法は多ベクトル表現を通じて画像とテキストの整合性を高めるが、限られたサンプルと静的な戦略による従来の訓練は、モデルの動的な進化に適応できず、クロスモーダル検索の混乱を招く。これを克服するために、新規の Viewpoint-Pathway コラボレーションに基づく LLM 指導のカリキュラム進化を特徴とする Evo-Retriever という検索フレームワークを導入します。まず、マルチビュー画像アライメントを用いて、マルチスケールおよびマルチディレクショナルな視点を通じて、細粒度のマッチングを強化します。次に、双方向の対照学習戦略が難易度の高いクエリを生成し、視覚とテキストの曖昧さを解消する補完的な学習経路を確立して、監督信号の再バランスを図ります。最後に、上記の協調から得られるモデル状態の要約をLLMメタコントローラに入力し、専門知識を用いて訓練カリキュラムを適応的に調整し、モデルの進化を促進します。ViDoRe V2 および MMEB (VisDoc) 上で、Evo-Retriever は最先端の性能を達成し、nDCG@5 のスコアはそれぞれ 65.2% および 77.1% となっています。
Evo-Retriever: 視点-経路協調によるLLM指導のカリキュラム進化を用いたマルチモーダル文書検索
arXiv cs.CV / 2026/3/18
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Evo-Retrieverは、モデルの進化に合わせてマルチモーダル文書検索を適応させるため、視点-経路協調を組み込んだLLM指導のカリキュラム進化フレームワークを導入する。
- 本手法は、視覚とテキストのモダリティ間の細かなマッチングのためのマルチビュー画像アライメントと、難易度の高いクエリを生成し、視覚とテキストの曖昧さを補完する学習経路を確立する雙方向対照学習戦略を組み合わせる。
- モデル状態の要約がLLMメタコントローラに入力され、専門家の知識を用いてトレーニングカリキュラムを適応的に調整し、モデルの継続的な進化を導く。
- ViDoRe V2 および MMEB データセットにおいて、Evo-Retriever は最先端の性能(nDCG@5: 65.2%、77.1%)を達成し、従来法に対して堅牢な改善を示している。

