UpstreamQA:動画質問応答タスクにおける明示的推論のためのモジュール型フレームワーク
arXiv cs.CV / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Video Question Answering(VideoQA)において、多くの大規模マルチモーダルモデルで見られる不透明な暗黙推論ではなく、明示的な多段推論を用いるためのUpstreamQAを提案している。
- UpstreamQAはまず、マルチモーダルの大規模推論モデルで物体同定とシーン文脈を生成し、その後に得られた推論トレースを下流のLMMへ渡して最終的なVideoQAを行う。
- OpenEQAおよびNExTQAデータセットで、LRM(o4-mini、Gemini 2.5 Pro)とLMM(GPT-4o、Gemini 2.5 Flash)を用いた実験により、明示的推論は性能と解釈可能性の両方を高め得ることが示された。
- 一方で、ベースライン性能が十分に高い場合には、明示的推論の追加が性能低下につながることも報告されており、適用は状況依存である。
- 全体としてUpstreamQAは、明示的推論とマルチモーダル理解を組み合わせ、VideoQAにおける結果と診断の透明性を改善するための枠組みを提供する。




