ViLL-E: 検索のためのビデオLLM埋め込み
arXiv cs.CV / 2026/4/15
📰 ニュースSignals & Early TrendsModels & Research
要点
- ViLL-E(Video-LLM-Embed)は、VideoLLMが得意なテキスト出力タスクに加えて、テキストからの動画検索やモーメント検索などの「埋め込み(retrieval)」領域での性能向上を狙った統合アーキテクチャです。
- 重要な特徴として、複雑な動画では長く推論(think longer)し、易しい動画では早期に停止(stop early)する埋め込み生成メカニズムを導入しています。
- 学習は「生成+対比(contrastive)」を組み合わせ、(1)動画-キャプションの大規模事前学習、(2)詳細キャプションでの継続学習、(3)複数タスク(Video QA、Temporal Localization、Video Retrieval、Video-Text Matching)を扱うタスク別ファインチューニングの3段階で行います。
- 結果として、時間的ローカライゼーションで平均7%改善、動画検索でデュアルエンコーダ系に対して最大4%改善し、さらにゼロショットの合成検索や長文クエリ検索でもSotAを上回る成果を報告しています。




