VideoTIR:効率的なツール統合推論による長尺動画のための正確な理解

arXiv cs.CV / 2026/3/27

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 現行のマルチモーダルLLMは、長尺動画理解(LVU)においてテキスト/ビジュアルトークンの不均衡などにより幻覚が起きやすいことが課題だと指摘しています。
  • そこで提案手法VideoTIRは、強化学習(RL)を用いて多層ツールキットを適切に使わせ、意味のある動画セグメント/画像/領域へ焦点を当てることで、長尺動画理解の精度と効率を両立させます。
  • 既存のSFTベースのツール呼び出しは、高品質で膨大なデータが必要であることや、ツール呼び出しの軌道が制約されがちという弱点に対し、VideoTIRはZero-RLおよびSFTのコールドスタートの両アプローチを検討しています。
  • さらに、Toolkit Action Grouped Policy Optimization(TAGPO)により冗長なツール呼び出しを抑え、段階的な報酬付与と失敗ロールアウトの再利用で呼び出し効率を高めます。
  • 併せて、サンドボックスを用いた軌道(trajectory)合成フレームワークで高品質な学習データを生成し、3つのロングビデオQAベンチマークで有効性と効率性を示したと報告しています。