要旨: 既存のビデオ・ラージ・言語モデル(Video LLMs)は、複雑な映像理解に苦しんでおり、推論能力が限定的で、幻覚が生じる可能性があります。とりわけ、これらの手法は入力映像コンテンツに対する知覚に基づく適応を欠く一方で、事前学習で内在した推論の根拠のみに頼って推論を行う傾向があります。そこで本研究では、
\textbf{Video-ToC} を提案します。これは、手がかりの木構造(tree-of-cue reasoning)による動画推論によって映像理解を強化する、新しい推論フレームワークです。具体的には、我々のアプローチには次の3つの主要な革新があります: (1) 木に導かれた視覚的手がかりのローカライズ機構。構造化された推論パターンを通じてモデルに高精度な知覚能力を付与します; (2) 推論要求(reasoning-demand)に基づく報酬メカニズム。推論要求の推定に応じて強化学習(RL)における報酬値を動的に調整し、より効果的な推論戦略のためのオンデマンドなインセンティブを可能にします; (3) 自動注釈パイプライン。教師あり微調整(SFT)およびRL学習のために、それぞれ Video-ToC-SFT-1k と Video-ToC-RL-2k データセットを構築します。6つの映像理解ベンチマークと、映像幻覚ベンチマークに対する大規模な評価により、Video-ToC がベースラインおよび近年の手法よりも優れていることが示されます。コードは https://github.com/qizhongtan/Video-ToC で公開されています。
Video-ToC:ビデオ・ツリー・オブ・キュー推論
arXiv cs.CV / 2026/4/23
📰 ニュースModels & Research
要点
- 本論文では、既存のVideo LLMで見られる推論力の不足や幻覚を抑えつつ、ビデオ理解を高めるための新しいフレームワークVideo-ToCを提案しています。
- Video-ToCは、(1) ツリーに導かれた視覚的手がかり(キュー)の位置特定、(2) 推論の要請度を見積もって報酬を動的に調整する推論デマンド報酬メカニズム、(3) SFTとRL学習のためのデータセットを自動構築するアノテーションパイプライン、という3つの主要な改良点を核にしています。
- 自動アノテーションにより、教師あり微調整用のVideo-ToC-SFT-1kと強化学習用のVideo-ToC-RL-2kの2つのデータセットを作成しています。
- 6つのビデオ理解ベンチマークと1つのビデオ幻覚ベンチマークで評価した結果、Video-ToCはベースラインや近年の手法を上回る性能を示しました。
- 併せて、再現や発展を可能にするためのコードがGitHubで公開されています。




