広告

エゴセントリック・ビデオ理解モデルにおける時間的認識を促す手法

arXiv cs.CV / 2026/3/31

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、マルチモーダルLLM(MLLM)がエゴセントリックなビデオ課題における時間的認識(temporal awareness)に苦戦するのは、一般的な学習目的が時間的推論を明示的に報酬として与えず、代わりにフレーム単位の空間的近道(spatial shortcuts)を助長するためだと主張する。
  • Temporal Global Policy Optimization(TGPO)を提案する。これは、時系列に並んだ映像フレームとシャッフルされた映像フレームに対するモデル出力を対比することで報酬信号を較正する、検証可能な報酬を用いた強化学習(RL)である。
  • TGPOは空間的近道の挙動を抑制するよう設計されており、GRPOおよびGSPOと組み合わせることでコールドスタートのRL学習も支援する。
  • 5つのエゴセントリック・ビデオベンチマークでの実験により、TGPOが時間的グラウンディングと因果的一貫性(causal coherence)を改善し、ビデオ推論における従来のRLベース手法よりも優れていることが示される。
  • 著者らはTGPOを、エゴセントリック・ビデオ理解向けにより時間的に頑健なMLLMを構築するための、シンプルでスケーラブルな手段として位置づけている。

Abstract

マルチモーダル大規模言語モデル(MLLMs)は視覚理解において近年強い性能を示している一方で、特に出来事の正しい順序と推移に基づく推論が必要となるエゴセントリック(自己視点)設定では、しばしば時間的な認識に欠けています。この不足は一部、時間的推論を明示的に報いる訓練目的が欠落しており、その代わりにフレーム単位の空間的ショートカットに依存してしまっていることに起因します。この制限に対処するために、本論文では、強化学習で検証可能な報酬(RLVR)を用いたアルゴリズムである Temporal Global Policy Optimization(TGPO)を提案します。TGPOは、時間的に順序付けられた動画フレームとシャッフルされた動画フレームから生成されたモデル出力を対比することで、時間的に首尾一貫した推論を明示的に好むよう設計された、較正済みかつグローバルに正規化された報酬信号を導出します。TGPOはGRPOおよびGSPOと統合されることで、コールドスタートの強化学習(RL)による訓練を支援し、既存のMLLMsが学習してしまった空間的ショートカット行動を効果的に抑制します。5つのエゴセントリック動画ベンチマークにまたがる実験により、TGPOが時間的なグラウンディングと因果的な首尾一貫性を一貫して改善し、先行するRLベースの動画推論手法を上回ることが示されます。これらの結果は、TGPOがエゴセントリックな動画理解に向けた、時間的に頑健なMLLMを実現するためのシンプルでスケーラブルな道筋を提供することを示唆しています。

広告