VideoTIR: Accurate Understanding for Long Videos with Efficient Tool-Integrated Reasoning

arXiv cs.CV / 3/27/2026

📰 NewsIdeas & Deep AnalysisModels & Research

Key Points

  • 現行のマルチモーダルLLMは長尺動画理解(LVU)でテキスト/ビジュアルトークンの不均衡などにより幻覚が起きやすいことが課題だと指摘しています。
  • そこで提案手法VideoTIRは、強化学習(RL)を用いて多層ツールキットを適切に使わせ、意味のある動画セグメント/画像/領域へ焦点を当てることで、長尺動画理解の精度と効率を両立させます。
  • 既存のSFTベースのツール呼び出しは高品質で膨大なデータが必要かつツール呼び出しの軌道が制約されがちという弱点に対し、VideoTIRはZero-RLおよびSFTのコールドスタートの両アプローチを検討しています。
  • さらに、Toolkit Action Grouped Policy Optimization(TAGPO)により冗長なツール呼び出しを抑え、段階的な報酬付与と失敗ロールアウトの再利用で呼び出し効率を高めます。
  • 併せて、サンドボックスを用いた軌道(trajectory)合成フレームワークで高品質な学習データを生成し、3つのロングビデオQAベンチマークで有効性と効率性を示したと報告しています。

Abstract

Existing Multimodal Large Language Models (MLLMs) often suffer from hallucinations in long video understanding (LVU), primarily due to the imbalance between textual and visual tokens. Observing that MLLMs handle short visual inputs well, recent LVU works alleviate hallucinations by automatically parsing the vast visual data into manageable segments that can be effectively processed by MLLMs. SFT-based tool-calling methods can serve this purpose, but they typically require vast amounts of fine-grained, high-quality data and suffer from constrained tool-calling trajectories. We propose a novel VideoTIR that leverages Reinforcement Learning (RL) to encourage proper usage of comprehensive multi-level toolkits for efficient long video understanding. VideoTIR explores both Zero-RL and SFT cold-starting to enable MLLMs to retrieve and focus on meaningful video segments/images/regions, enhancing long video understanding both accurately and efficiently. To reduce redundant tool-calling, we propose Toolkit Action Grouped Policy Optimization (TAGPO), which enhances the efficiency of the calling process through stepwise reward assignment and reuse of failed rollouts. Additionally, we develop a sandbox-based trajectory synthesis framework to generate high-quality trajectories data. Extensive experiments on three long-video QA benchmarks demonstrate the effectiveness and efficiency of our method.