UpstreamQA:動画質問応答タスクにおける明示的推論のためのモジュール型フレームワーク

arXiv cs.CV / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Video Question Answering(VideoQA)において、多くの大規模マルチモーダルモデルで見られる不透明な暗黙推論ではなく、明示的な多段推論を用いるためのUpstreamQAを提案している。
  • UpstreamQAはまず、マルチモーダルの大規模推論モデルで物体同定とシーン文脈を生成し、その後に得られた推論トレースを下流のLMMへ渡して最終的なVideoQAを行う。
  • OpenEQAおよびNExTQAデータセットで、LRM(o4-mini、Gemini 2.5 Pro)とLMM(GPT-4o、Gemini 2.5 Flash)を用いた実験により、明示的推論は性能と解釈可能性の両方を高め得ることが示された。
  • 一方で、ベースライン性能が十分に高い場合には、明示的推論の追加が性能低下につながることも報告されており、適用は状況依存である。
  • 全体としてUpstreamQAは、明示的推論とマルチモーダル理解を組み合わせ、VideoQAにおける結果と診断の透明性を改善するための枠組みを提供する。