要旨: 長編動画の理解は、時空間的な冗長性の広範な存在と、長い時間的地平にまたがる複雑な物語的依存関係によって、根本的に依然として困難な課題です。近年の構造化された表現は視覚情報を効果的に圧縮する一方で、因果推論にとって重要な時間的な一貫性をしばしば犠牲にします。一方、既存のマルチエージェント枠組みは、質問固有の要求に応じて推論戦略を適応させることに失敗する、硬直的で事前に定義されたワークフローを通じて動作します。本論文では、これらの制約に対処する階層型マルチエージェント枠組みであるHiCrewを提案します。中核となる貢献は3つです。第一に、ショット境界検出を活用して時間的トポロジを保持しつつ、意味的に一貫したセグメント内で関連性に導かれた階層的クラスタリングを行うHybrid Tree構造を提案します。第二に、意図に基づく視覚プロンプトを統合して、精度志向の意味記述を生成するQuestion-Aware Captioning(質問を考慮したキャプション化)機構を開発します。第三に、質問の複雑さに応じて役割と実行経路を適応的に選択することで、エージェント間の協調を動的にオーケストレーションするPlanning Layer(計画層)を統合します。EgoSchemaおよびNExT-QAに関する大規模な実験により、本アプローチの有効性が検証されます。階層構造の保持により恩恵を受ける、時間的および因果的推論タスクにおいて特に顕著な改善を示し、多様な質問タイプにわたって強力な性能が得られることを実証します。
HiCrew:質問に応じたマルチエージェント協調による長編動画理解の階層的推論
arXiv cs.AI / 2026/4/25
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、時空間的な冗長性や長い時間範囲にまたがる物語的な依存関係といった課題に対し、長編動画理解を改善するための階層型マルチエージェントフレームワーク「HiCrew」を提案している。
- 因果推論に必要な時間的な整合性を保つために、ショット境界検出と、意味的にまとまりのある区間内での関連度に基づく階層クラスタリングを組み合わせた「Hybrid Tree」構造を用いる。
- HiCrewは、質問に応じたキャプション生成として、意図に基づくビジュアルプロンプトを統合し、質問に対して精度の高い意味記述を生成する仕組みを導入している。
- さらに、質問の複雑さに応じてエージェントの役割と実行経路を動的に選択する「Planning Layer」を組み込み、固定的な事前ワークフローに依存しない設計になっている。
- EgoSchemaおよびNExT-QAでの実験では、HiCrewの構造保持型設計が有効に働き、特に時間的・因果的推論タスクで大きな改善が示されている。



