大規模画像検索のためのマルチモーダル言語モデルのインデックス化

arXiv cs.CL / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、マルチモーダルの大規模言語モデルを、次トークン確率をペア画像プロンプトから類似度スコアへ変換することで、インスタンス単位の画像対画像検索における学習不要の類似度推定器として活用することを探究する。
  • 記憶効率に配慮したインデックス作成と、MLLMによる上位k候補の再ランキングを組み合わせた、大規模でスケーラブルな検索ワークフローを提案し、専用の検索アーキテクチャや微調整を回避する。
  • 複数のベンチマークでの実験により、この手法は、モデル本来の領域の外で適用した場合でも、タスク固有の再ランキング手法を上回る可能性があり、散らかり、遮蔽、小さな物体に対して頑健性を維持できることが示される。
  • 著者らは、外見の大幅な変化がある場合の失敗モードを特定し、オープンワールドな検索に対する限界と今後の研究の方向性を示唆する。
  • 全体として、本研究は、オープンワールドで大規模な画像検索パイプラインにおける代替となり得るコンポーネントとして、MLLMを有望なものとして位置づけている。

Abstract

マルチモーダル大規模言語モデル(MLLMs)は強力なクロスモーダル推論能力を示している一方で、視覚のみのタスクに対する可能性は十分に調査されていません。私たちは、インスタンスレベルの画像対画像検索において、MLLMを学習不要の類似度推定器として検討します。提案手法では、ペアとなった画像を用いてモデルにプロンプトを与え、次トークン確率を類似度スコアへと変換することで、大規模な検索パイプライン内でゼロショットによる再ランキングを可能にします。この設計により、専用のアーキテクチャや微調整を回避し、多モーダル事前学習で獲得した豊かな視覚的弁別力を活用できます。メモリ効率の高いインデクシングと上位-kの候補再ランキングを組み合わせることで、スケーラビリティに対処します。多様なベンチマークにわたる実験の結果、MLLMは、タスク固有の再ランカーが自らの適用領域外で行う場合を上回ることに加え、散らかり、遮蔽、小さな物体に対する頑健性が優れていることを示しました。強い結果が得られたにもかかわらず、外観が大きく変化する状況で失敗モードを特定しており、今後の研究の機会が示唆されます。以上の発見により、MLLMはオープンワールドの大規模画像検索における有望な代替手段として位置づけられます。