SVAgent:ストーリーライン誘導によるクロスモーダル・マルチエージェント協調を通じた長尺動画理解

arXiv cs.CV / 2026/4/8

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、関連するフレームを選択するだけでなく、首尾一貫した物語の進行を推論することで動画質問応答を改善することを目的とした、ストーリーライン誘導型のクロスモーダル・マルチエージェントフレームワーク「SVAgent」を提案する。
  • SVAgentは、ストーリーラインエージェントが、リファインメント提案エージェントによって示されたフレームから段階的に物語表現を構築する仕組みを用いる。リファインメント提案エージェントは、過去の失敗事例を対象に学習し、フレームの選択を改善する。
  • クロスモーダルな意思決定エージェントをそれぞれ独立に用い、視覚モダリティとテキストモダリティから答えを予測する。これらの出力は、進化するストーリーライン表現によって制約され、改善される。
  • メタエージェントが、クロスモーダル予測を評価・整合させることで推論の頑健性を高め、回答の一貫性を改善する。人間らしい解釈可能性を目指す。
  • 実験では、SVAgentがVideoQAにおいて既存手法を上回る性能を示し、ストーリーラインに基づく推論プロセスによりより高い解釈可能性も提供することが報告されている。

要旨: 動画質問応答(VideoQA)は、動画シーケンスの複雑なダイナミクスを捉えるために、空間・時間・意味の情報を統合することを必要とする難しい課題である。近年の進展により動画理解のためのさまざまなアプローチが提案されてきたが、既存のほとんどの手法は、質問に答えるために関連するフレームを特定することに依存しており、人間が行うように変化していくストーリーラインを推論することはまだ十分ではない。人間は自然に、筋の通ったストーリーラインを通して動画を解釈する。この能力は、頑健で文脈に根ざした予測を行ううえで重要である。このギャップに対処するために、本研究ではSVAgentを提案する。SVAgentは、VideoQAのための、ストーリーラインに導かれるクロスモーダル・マルチエージェントの枠組みである。ストーリーライン・エージェントは、過去の失敗を分析する洗練(リファインメント)提案エージェントによって示されたフレームに基づいて、物語表現を段階的に構築する。さらに、クロスモーダル意思決定エージェントは、進化するストーリーラインのガイダンスのもとで、視覚モダリティとテキスト・モダリティからそれぞれ独立に答えを予測する。これらの出力は、その後メタ・エージェントによって評価され、クロスモーダルの予測を整合させるとともに、推論の頑健性と回答の一貫性を高める。実験結果により、SVAgentは、動画理解において人間のようなストーリーライン推論を模倣することで、優れた性能と解釈可能性を達成することが示された。