コンパクトな潜在マルチエージェント協調による動画理解のスケーリング
arXiv cs.CV / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、認識コンテキストの予算が制約される長尺動画でもマルチモーダル(視覚-言語)理解を高めるための、エンドツーエンドのマルチエージェント協調フレームワーク「MACF」を提案しています。
- MACFは動画をセグメントに分割し、局所的な予算を持つ各エージェントが処理しつつ、中央コーディネータがエージェントネイティブな潜在コミュニケーションによって全体的な推論を可能にします。
- エージェントは部分的な視覚観測を、共有埋め込み空間上でタスクに十分なコンパクトトークンへ圧縮し、損失の大きいテキスト中間表現への依存を避けて効率的に協調します。
- 著者らはカリキュラム学習として、意味整合性、根拠の要約、エージェント間の連携を段階的に強める方針を示しています。
- 複数の動画理解ベンチマークで、同一の予算制約下においてMACFが既存のSOTA MLLMやマルチエージェント手法を一貫して上回ることが報告され、情報を保持したスケーラブルな動画理解の有効性が示されています。



