Em-Garde: プロポーズ-マッチ・フレームワークによるプロアクティブなストリーミング動画理解

arXiv cs.CV / 2026/3/20

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

Em-Gardeは、意味理解をストリーミング知覚から切り離すことで、プロアクティブな動画理解の効率を向上させる。
クエリ時には、指示に導かれた提案解析器が、ユーザーのクエリを構造化された知覚的根拠を伴う視覚的提案へと変換します。
ストリーミング中には、軽量な提案照合モジュールが埋め込みベースの照合を実行し、計算量を抑えつつ応答をトリガーします。
StreamingBenchとOVO-Benchでの実験は、従来のモデルに比べて、プロアクティブな応答の精度と効率の一貫した向上を示しました。
本研究は、厳しい計算制約の下でのプロアクティブな動画理解に対する実用的な解決策を示しています。

要約: 最近のストリーミング動画理解の進展は、モデルがユーザーの質問に対して積極的に応答する新しい対話パラダイムを可能にした。現在の積極的な VideoLLMs は、フレームごとのトリガー決定に依存しており、効率と精度のジレンマに悩んでいる。我々は、意味理解とストリーミング知覚を切り離す新しいフレームワーク Em-Garde を提案する。クエリ時には、Instruction-Guided Proposal Parser がユーザーのクエリを構造化され知覚的に根拠のある視覚的提案へと変換する；ストリーミング中には、Lightweight Proposal Matching Module が効率的な埋め込みベースのマッチングを実行して応答をトリガーする。StreamingBench および OVO-Bench に関する実験は、従来のモデルに対する積極的な応答の精度と効率で一貫した改善を示し、厳格な計算制約下での積極的な動画理解に対する効果的なソリューションを検証している。

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

Reddit r/artificial

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

初期採用者からAIインストラクターへ：LLMsを使って500人のエンジニアに構築方法を教える

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

Em-Garde: プロポーズ-マッチ・フレームワークによるプロアクティブなストリーミング動画理解

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

初期採用者からAIインストラクターへ：LLMsを使って500人のエンジニアに構築方法を教える

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIはバブルになりつつあり、ドットコム崩壊のような結末を迎えるのか？

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

初期採用者からAIインストラクターへ：LLMsを使って500人のエンジニアに構築方法を教える

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？