要旨: MLLM エージェントの急速な発展と広範な応用にもかかわらず、それらは依然として長編ビデオ理解(LVU)タスクに苦戦しており、これらは高い情報密度と長い時間的スパンを特徴とする。LVUエージェントに関する最近の研究は、単純なタスク分解と協調機構だけでは長鎖推論タスクを処理するには不十分であることを示している。さらに、埋め込みベースの検索によって時間コンテキストを直接削減することは、複雑な問題の重要な情報を失う可能性がある。本論文では、これらの制限を緩和するためにマルチエージェントシステムである Symphony を提案する。人間の認知パターンを模倣することで、Symphony は LVU を微細なサブタスクに分解し、内省によって強化された深い推論協調メカニズムを取り入れることで、推論能力を効果的に向上させる。さらに、Symphony は VLM ベースのグラウンディング手法を提供し、LVU タスクを分析し、ビデオセグメントの関連性を評価する。これにより、暗黙の意図と長い時間的スパンを持つ複雑な問題を特定する能力が大幅に向上する。実験結果は、Symphony が LVBench、LongVideoBench、VideoMME、MLVU の最先端性能を達成し、LVBench における先行最先端手法より 5.0% 向上していることを示す。コードは https://github.com/Haiyang0226/Symphony で入手可能です。
Symphony: 認知に触発された長時間動画理解のマルチエージェントシステム
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- Symphonyは、LVUを細粒度のサブタスクに分解し、反省を取り入れた深層推論の協調を可能にすることで、長時間動画理解を改善する認知に触発されたマルチエージェントシステムを提案します。
- VLMベースのグラウンディング手法を導入してLVUタスクを分析し、長期的なスパンを持つ複雑な問題を特定するためにビデオセグメントの関連性を評価します。
- 単純なタスク分解と埋め込みベースの検索の限界を克服することを目指し、長い文脈で重要な情報を失うリスクを回避します。
- 実験結果は LVBench、LongVideoBench、VideoMME、MLVU で最先端のパフォーマンスを示し、LVBenchで5.0%の改善を達成、コードはGitHubで公開されています。