ViLL-E: Video LLM Embeddings for Retrieval
arXiv cs.CV / 4/15/2026
📰 NewsSignals & Early TrendsModels & Research
Key Points
- ViLL-E(Video-LLM-Embed)は、VideoLLMが得意なテキスト出力タスクに加えて、テキストからの動画検索やモーメント検索などの「埋め込み(retrieval)」領域での性能向上を狙った統合アーキテクチャです。
- 重要な特徴として、複雑な動画では長く推論(think longer)し、易しい動画では早期に停止(stop early)する埋め込み生成メカニズムを導入しています。
- 学習は「生成+対比(contrastive)」を組み合わせ、(1)動画-キャプションの大規模事前学習、(2)詳細キャプションでの継続学習、(3)複数タスク(Video QA、Temporal Localization、Video Retrieval、Video-Text Matching)を扱うタスク別ファインチューニングの3段階で行います。
- 結果として、時間的ローカライゼーションで平均7%改善、動画検索でデュアルエンコーダ系に対して最大4%改善し、さらにゼロショットの合成検索や長文クエリ検索でもSotAを上回る成果を報告しています。
Related Articles

Black Hat Asia
AI Business
Are gamers being used as free labeling labor? The rise of "Simulators" that look like AI training grounds [D]
Reddit r/MachineLearning

I built a trading intelligence MCP server in 2 days — here's how
Dev.to

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to
Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s
Reddit r/LocalLLaMA