要旨: 多モーダル大規模言語モデル(MLLM)は強力な推論力と世界知識を示しますが、検索のために適応させることは依然として困難です。既存手法は、完全なファインチューニングやLoRAのような侵襲的なパラメータ更新に依存しており、事前学習済みのセマンティック空間を損なう可能性があり、推論に不可欠な構造化知識の性能低下につながります。本研究では、検索のためのMLLM適応は、それらを上書きするのではなく、事前学習済み表現を引き出すことに焦点を当てるべきだと主張します。そこで本研究では、凍結したMLLMを少数の共有潜在クエリ(Shared Latent Queries)によってリトリーバに適応させる、有効かつ効率的な枠組みSLQを提案します。これらのクエリはテキストトークン列と画像トークン列の末尾に付加され、モデル本来の因果的注意(causal attention)を活用して、グローバルな集約インターフェースとして機能します。その結果、バックボーンを変更せずに、統一された空間上でコンパクトな埋め込みを生成できます。さらに、表面的なパターンマッチングを超えて検索をより適切に評価するために、知識に基づく推論検索を目的としたベンチマークKARR-Benchを構築します。大規模な実験により、SLQはCOCOおよびFlickr30Kにおいて、完全ファインチューニングおよびLoRAを上回る性能を示し、MMEBでは競争力のある性能を達成し、KARR-Benchでは顕著な改善をもたらすことが明らかになりました。これらの結果は、事前学習済み表現を保持するSLQが、MLLMを検索へ適応させるための有効かつ効率的な枠組みを提供することを示しています。
SLQ:共有潜在クエリによってモダリティを橋渡しし、フリーズしたMLLMで検索を実現する
arXiv cs.CV / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、バックボーンのパラメータを変更せず、また微調整もしないまま、フリーズしたマルチモーダル大規模言語モデル(MLLM)をリトリーバに適応するためのフレームワークSLQを提案する。
- SLQは、テキストトークン列と画像トークン列の両方に少数のShared Latent Queries(共有潜在クエリ)を付加し、モデルの因果注意(causal attention)をグローバルな集約インターフェースとして機能させることで、統一された空間上にコンパクトな埋め込みを生成する。
- 著者らは、検索の適応は、意味空間や推論に必要な構造化された知識を破壊することなく、既存の事前学習表現を引き出すことにあるべきだと主張している。
- さらに、浅いパターンマッチングを超えた性能評価のために、知識を踏まえた推論型の検索を目的とするベンチマークKARR-Benchを導入する。
- 実験結果では、SLQがCOCOおよびFlickr30Kにおいて、完全な微調整やLoRAよりも優れていることが報告されている。また、MMEBでも競争力のある性能を示し、KARR-Benchでは大幅な向上も達成している。
