Abstract
マルチモーダル大規模言語モデル(MLLMs)は強力なクロスモーダル推論能力を示している一方で、視覚のみのタスクに対する可能性は十分に調査されていません。私たちは、インスタンスレベルの画像対画像検索において、MLLMを学習不要の類似度推定器として検討します。提案手法では、ペアとなった画像を用いてモデルにプロンプトを与え、次トークン確率を類似度スコアへと変換することで、大規模な検索パイプライン内でゼロショットによる再ランキングを可能にします。この設計により、専用のアーキテクチャや微調整を回避し、多モーダル事前学習で獲得した豊かな視覚的弁別力を活用できます。メモリ効率の高いインデクシングと上位-kの候補再ランキングを組み合わせることで、スケーラビリティに対処します。多様なベンチマークにわたる実験の結果、MLLMは、タスク固有の再ランカーが自らの適用領域外で行う場合を上回ることに加え、散らかり、遮蔽、小さな物体に対する頑健性が優れていることを示しました。強い結果が得られたにもかかわらず、外観が大きく変化する状況で失敗モードを特定しており、今後の研究の機会が示唆されます。以上の発見により、MLLMはオープンワールドの大規模画像検索における有望な代替手段として位置づけられます。