要旨: 部分的に関連するビデオ検索(PRVR)は、出来事の一部だけを記述するテキストクエリに基づいて、トリミングされていない動画を検索することを目的とします。既存手法は不完全なグローバル文脈の把持に悩まされており、クエリのあいまいさや、紛らわしい応答によって誘発される局所的なノイズに苦戦しています。これらの課題に対処するため、我々はDreamPRVRを提案します。DreamPRVRは粗いから細かいへという表現学習パラダイムを採用しています。モデルはまず、動画全体にまたがる粗い粒度のハイライトとして、グローバルな文脈セマンティック・レジスターを生成し、その後、正確なクロスモーダル対応のために細粒度の類似度最適化へ集中します。具体的には、これらのレジスターは、確率的な変分サンプラが生成する動画中心の分布で初期化し、その後、テキストに教師ありの切り詰められた拡散モデルによって逐次的に改良することで生成されます。この過程では、テキストの意味構造学習によってよく整ったテキスト潜在空間が構築され、グローバル知覚の信頼性が高まります。次に、レジスターは、レジスター拡張型ガウス注意ブロックを通じて動画トークンと適応的に融合され、文脈認識に基づく特徴学習を可能にします。大規模な実験の結果、DreamPRVRは最先端手法を上回ることが示されました。コードは https://github.com/lijun2005/CVPR26-DreamPRVR で公開されています。
集中の前に想像する:拡散誘導レジスタが部分的に関連するビデオ検索を強化する
arXiv cs.CV / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、非トリミング動画中でテキストクエリが出来事の一部(部分的イベント)だけを記述するPartially Relevant Video Retrieval(PRVR)に対する、粗いところから細かいところへ段階的に進める枠組みDreamPRVRを提案する。
- 確率的な変分サンプラで粗視的な動画ハイライトとしてグローバルな文脈的セマンティック「レジスタ」を生成し、その後、テキストにより監督された切り詰め(truncated)拡散モデルによって反復的に洗練(リファイン)する。
- 拡散に基づくリファインは、適切に形成されたテキスト潜在空間を構築することを目的としており、クエリの曖昧さや不正な一致(スパリアス・マッチ)に由来する局所的ノイズに対する頑健性を高める。
- その後DreamPRVRは、レジスタ拡張型のガウス注意(Gaussian attention)ブロックを用いて、これらのレジスタを動画トークンと適応的に融合し、文脈を考慮したクロスモーダルなマッチングを行う。
- 実験では、既存の最先端PRVR手法に比べて性能が向上したことが報告されており、再現用のコードも公開されている。



