エゴセントリック・ビデオ理解モデルにおける時間的認識を促す手法
arXiv cs.CV / 2026/3/31
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、マルチモーダルLLM(MLLM)がエゴセントリックなビデオ課題における時間的認識(temporal awareness)に苦戦するのは、一般的な学習目的が時間的推論を明示的に報酬として与えず、代わりにフレーム単位の空間的近道(spatial shortcuts)を助長するためだと主張する。
- Temporal Global Policy Optimization(TGPO)を提案する。これは、時系列に並んだ映像フレームとシャッフルされた映像フレームに対するモデル出力を対比することで報酬信号を較正する、検証可能な報酬を用いた強化学習(RL)である。
- TGPOは空間的近道の挙動を抑制するよう設計されており、GRPOおよびGSPOと組み合わせることでコールドスタートのRL学習も支援する。
- 5つのエゴセントリック・ビデオベンチマークでの実験により、TGPOが時間的グラウンディングと因果的一貫性(causal coherence)を改善し、ビデオ推論における従来のRLベース手法よりも優れていることが示される。
- 著者らはTGPOを、エゴセントリック・ビデオ理解向けにより時間的に頑健なMLLMを構築するための、シンプルでスケーラブルな手段として位置づけている。



