ニュアンスのある動画検索のためのMLLM適応

arXiv cs.CV / 2026/4/27

💬 オピニオンModels & Research

共有:

要点

本論文は、時間的なニュアンス、否定（not/none）を含むクエリ、そしてマルチモーダルな複合検索といった“微妙な違い”を明示的に扱う、統一型の動画検索用埋め込みモデルを提案している。
生成用に学習された既存のマルチモーダルLLM（MLLM）を埋め込みモデルとして流用し、コントラスト学習で微調整することで実現する。
こだわりのあるハードネガティブを注意深くサンプリングし、コントラスト損失を用いることで、時間的に正反対の行為（開ける/閉める）やクエリ上の否定といった区別を埋め込み空間に学習させる。
テキストのみで学習しているにもかかわらず、ニュアンス付き動画検索の全ベンチマークで最先端の性能を達成したと報告されており、その要因としてテキストと動画の埋め込み間のモダリティギャップ低減を挙げている。
さらに、テキストのみの学習がどのように埋め込み空間の整理を改善し、対象とするニュアンス下での検索性能につながるのかを分析している。

概要: 私たちの目的は、検索クエリと候補動画との間の微妙な関係を捉える埋め込みモデルを構築することです。私たちは、微妙なリトリーバル（検索）の3つの側面を扱います：(i) 時間的、(ii) 否定、(iii) マルチモーダルです。時間的な微妙さについては、「ドアを開ける」と「ドアを閉める」のように、時間的に反対の行動を区別する必要があるキラル（左右対応的）な行動を考えます。否定については、「not」「none」などの否定語を含むクエリを扱い、ユーザが「欲しくないもの」を指定できるようにします。マルチモーダルな微妙さについては、クエリが動画とテキストの編集指示から構成される、構成的リトリーバルの課題を考えます。目的は、このような微妙さを効果的に扱える統一的な埋め込みモデルを開発することです。そのために、テキスト生成のために訓練されたマルチモーダル大規模言語モデル（MLLM）を、埋め込みモデルとして再活用します。さらに、テキストのみでコントラスト損失により微調整し、慎重にサンプリングしたハードネガティブを用いることで、学習された埋め込み空間に所望の微妙さを注入します。テキストのみでの学習にもかかわらず、私たちの手法は、微妙な動画検索のあらゆるベンチマークで最先端の性能を達成します。また、この改善がどのように達成されるのかを分析し、テキストのみの学習がテキストと動画の埋め込み間のモダリティギャップを縮小することで、埋め込み空間のより良い整理につながることを示します。