要旨: Visual Document Retrieval (VDR) には、微細な視覚的ディテールとグローバルな文書構造の両方を捉える表現が必要であり、検索の有効性を確保しつつ計算効率を維持します。既存の VDR モデルは、高解像度の文書を処理する際に有効性と効率性のバランスを取るのに苦労しています:多くの場合、細かな情報を失うか、視覚トークンの過剰な数を生成してしまい、重大なインデックス作成のオーバーヘッドと高い検索待機時間を招きます。本研究では、視覚エンコーディング機構を再考し、マルチ解像度のサンプリングとエンコードから始まり、クロスグラニュラリティの特徴融合を経て、適応的な表現蒸留へと進む新しい X-VisEmb パラダイムを提案します。予備的な研究は、その実現性と有効性を検証し、さまざまなスケールで補完的な視覚手がかりを捉えることを示しています。これらの知見に基づき、VLMを階層的なマルチ解像度エンコーダとして採用し、効果的な特徴融合のための解像度レベルの Matryoshka 表現学習(RMRL)を統合し、視覚トークンの圧縮のための意味論的な階層クラスタリング機構を適用する、MURE という新しいフレームワークを開発します。二つの広く用いられている VDR ベンチマークでの実験は、我々の MURE フレームワークが一貫して強力なベースラインを上回ることを示しています。さらに、ColPali の視覚トークン予算のわずか50%しか使っていないにもかかわらず、顕著に上回っています。
MURE: 視覚-言語モデルによる階層的多解像度エンコーディングを用いた視覚文書検索
arXiv cs.CV / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 視覚文書検索には、細かな視覚的ディテールとグローバルな文書構造の両方を捉える表現が必要ですが、既存のモデルは細部を失うか、あるいは高いインデックスコストと検索遅延を招く。
- 著者らは、マルチ解像度サンプリングとエンコーディング、異なる粒度間の特徴融合、スケールを跨いだ手掛かりの適応的表現蒸留を特徴とする X-VisEmb パラダイムを提案する。
- X-VisEmb を基盤として、MURE は視覚-言語モデルを階層的な多解像度エンコーダとして用い、効果的な特徴融合のためにマトリョーシカ式解像度レベル表現学習を導入し、意味情報を取り入れた階層的クラスタリングを適用して視覚トークンを圧縮する。
- 二つの VDR ベンチマークでの実験の結果、MURE は強力なベースラインを一貫して凌ぎ、ColPali を、ColPali が使う視覚トークン予算の50%のみで凌駕することを示しており、インデックスのオーバーヘッドと検索遅延を削減する。