要約: 最近のストリーミング動画理解の進展は、モデルがユーザーの質問に対して積極的に応答する新しい対話パラダイムを可能にした。現在の積極的な VideoLLMs は、フレームごとのトリガー決定に依存しており、効率と精度のジレンマに悩んでいる。我々は、意味理解とストリーミング知覚を切り離す新しいフレームワーク Em-Garde を提案する。クエリ時には、Instruction-Guided Proposal Parser がユーザーのクエリを構造化され知覚的に根拠のある視覚的提案へと変換する;ストリーミング中には、Lightweight Proposal Matching Module が効率的な埋め込みベースのマッチングを実行して応答をトリガーする。StreamingBench および OVO-Bench に関する実験は、従来のモデルに対する積極的な応答の精度と効率で一貫した改善を示し、厳格な計算制約下での積極的な動画理解に対する効果的なソリューションを検証している。
Em-Garde: プロポーズ-マッチ・フレームワークによるプロアクティブなストリーミング動画理解
arXiv cs.CV / 2026/3/20
📰 ニュースSignals & Early TrendsModels & Research
要点
- Em-Gardeは、意味理解をストリーミング知覚から切り離すことで、プロアクティブな動画理解の効率を向上させる。
- クエリ時には、指示に導かれた提案解析器が、ユーザーのクエリを構造化された知覚的根拠を伴う視覚的提案へと変換します。
- ストリーミング中には、軽量な提案照合モジュールが埋め込みベースの照合を実行し、計算量を抑えつつ応答をトリガーします。
- StreamingBenchとOVO-Benchでの実験は、従来のモデルに比べて、プロアクティブな応答の精度と効率の一貫した向上を示しました。
- 本研究は、厳しい計算制約の下でのプロアクティブな動画理解に対する実用的な解決策を示しています。


