LITTA：視覚に根ざしたマルチモーダル検索のための遅延インタラクションとテスト時整合

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

LITTAは、教科書やマニュアルのような視覚的に複雑な文書から、マルチモーダルな根拠ページを検索するための、テスト時・クエリ拡張中心のフレームワークである。長い文脈や語彙の重なりの弱さが原因で、検索が困難になる。
大規模言語モデルを用いて補完的なクエリのバリアントを生成し、その後、凍結した視覚リトリーバを使ってレイトインタラクションのスコアリングにより候補ページを検索する。
拡張クエリに基づく候補リストを、相互順位融合（reciprocal rank fusion）で統合し、カバレッジを高め、特定のクエリ表現への依存を低減する。
3つのドメイン（コンピュータサイエンス、製薬、産業用マニュアル）での実験により、多クエリによる検索は単一クエリ検索に比べて、トップk精度、リコール、MRRを改善することが示されており、特に視覚と意味のばらつきが大きい場合に効果が顕著である。
LITTAは、クエリバリアントの数を調整することで、精度とレイテンシのトレードオフを制御できる。また、リトリーバの再学習なしで、既存のマルチモーダル埋め込みインデックスと互換性を保つ。

要旨: 教科書、技術レポート、マニュアルのような視覚的に豊富な文書から、関連する証拠を取得することは困難です。理由は、長いコンテキスト、複雑なレイアウト、そしてユーザの質問と裏づけとなるページとの間の語彙的な重なりが弱いことにあります。私たちは、リトリーバ（検索器）の再学習なしにマルチモーダル文書検索を改善する、証拠ページ検索のためのクエリ拡張中心の検索フレームワークであるLITTAを提案します。ユーザのクエリが与えられると、LITTAは大規模言語モデルを用いて補完的なクエリのバリアントを生成し、後期相互作用スコアリングを行う凍結済みのビジョン・リトリーバで各バリアントに対する候補ページを取得します。拡張クエリから得られた候補は、相互順位融合（reciprocal rank fusion）によって集約され、証拠のカバレッジを改善するとともに、特定の言い回しへの感度を低減します。この単純な推論時（テスト時）の戦略は、既存のマルチモーダル埋め込みインデックスと互換性を保ちつつ、検索の頑健性を大幅に向上させます。私たちは、3つの領域（計算機科学、製薬、産業用マニュアル）にまたがる、視覚的に根拠づけられた文書検索タスクでLITTAを評価します。マルチクエリ検索は、シングルクエリ検索と比べて、トップk精度、リコール、MRRを一貫して改善し、特に視覚および意味のばらつきが大きい領域で顕著な向上が見られます。さらに、精度と効率のトレードオフは生成するクエリバリアントの数によって直接制御できるため、レイテンシ制約の下での実運用が現実的になります。これらの結果は、クエリ拡張が、視覚的に根拠づけられたマルチモーダル検索を改善するための、単純でありながら効果的なメカニズムであることを示しています。