物語に沿った長編動画の質問応答

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • NA-VQAは、長編動画における深い時間的および物語的推論を評価するベンチマークを導入し、局所的手掛かりに依存する従来のベンチマークの限界に対処する。
  • データセットには88本の長編映画と4,400件のオープンエンドQAペアが含まれ、長距離の依存関係を評価するために証拠の範囲を Short、Medium、Far とラベル付けしている。
  • Video-NaRAは、シーン間の推論を支えるため、イベントレベルの連鎖を構築し、構造化メモリに格納する物語志向のフレームワークとして提案される。
  • 実験では、最先端のマルチモーダルLLMsが遠距離の質問に苦戦することが示され、明示的な物語モデリングの必要性が強調されている。
  • 著者らはVideo-NaRAによって長距離推論が最大で3パーセント改善されると報告し、公開時にNA-VQAをリリースする予定である。

要約: 最近のマルチモーダル大規模言語モデル(MLLMs)の進歩は、長編動画の推論のためのベンチマークの急増を招きました。しかし、ほとんどの既存ベンチマークは局所的な手掛かりに頼っており、物語的推論、意図を追跡する能力、遠く離れた出来事を結びつける能力、そして映画全体にわたる因果連鎖を再構築する能力を捉え切れていません。私たちは NA-VQA を導入します。長編動画における深い時間的・物語的推論を評価するよう設計されたベンチマークです。NA-VQA には 88 本の長編映画と 4.4K のオープンエンド質問回答ペアが含まれ、各ペアは Short、Medium、Far とラベル付けされた複数の証拠区間に基づいて長距離の依存性を評価します。生成的で複数シーンにまたがる回答を求めることで、NA-VQA はモデルが浅いパターンマッチングに頼るのではなく、分散した物語情報を統合できるかを検証します。既存アプローチの限界に対処するため、物語中心のフレームワーク Video-NaRA を提案します。Video-NaRA はイベントレベルの連鎖を構築し、それらを推論中の参照のために構造化されたメモリに格納します。広範な実験は、最先端の MLLMs が遠距離の証拠を要する質問に対しては性能が低いことを示しており、明示的な物語モデル化の必要性を浮き彫りにしています。Video-NaRA は長距離推論の性能を最大で3パーセント改善し、複雑な物語構造の取り扱いにおけるその有効性を示しています。NA-VQA は公表時に公開します。