ViLL-E: 検索のためのビデオLLM埋め込み

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

ViLL-E（Video-LLM-Embed）は、VideoLLMが得意なテキスト出力タスクに加えて、テキストからの動画検索やモーメント検索などの「埋め込み（retrieval）」領域での性能向上を狙った統合アーキテクチャです。
重要な特徴として、複雑な動画では長く推論（think longer）し、易しい動画では早期に停止（stop early）する埋め込み生成メカニズムを導入しています。
学習は「生成＋対比（contrastive）」を組み合わせ、(1)動画-キャプションの大規模事前学習、(2)詳細キャプションでの継続学習、(3)複数タスク（Video QA、Temporal Localization、Video Retrieval、Video-Text Matching）を扱うタスク別ファインチューニングの3段階で行います。
結果として、時間的ローカライゼーションで平均7%改善、動画検索でデュアルエンコーダ系に対して最大4%改善し、さらにゼロショットの合成検索や長文クエリ検索でもSotAを上回る成果を報告しています。