長尺スポーツ動画における時間的な合成推論へのアプローチ

arXiv cs.CV / 2026/4/27

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、スポーツ動画での長期的なマルチモーダル推論が難しい主因として、(1) 時間的に離散した証拠への十分な教師信号がないことと、(2) モデルに時間的手がかりを見つけて位置特定し、根拠として正当化させる方法が欠けていることを挙げている。
長尺スポーツ動画理解のための大規模ベンチマークとしてSportsTimeを提案し、14K件超のオープンエンドQAペアと、50K件超の段階的な時間的証拠アノテーションを含めている。
SportsTimeを基に、Chain-of-Time Reasoning（CoTR）を提案し、回答を「時間的に根拠づけられた証拠の合成」として捉える。
CoTRは学習時に時間的報酬付きGRPOで時間的グラウンディングを促し、推論時にはanchor-observe-inferの証拠探索ループにより、証拠の局在化・検証・合成を反復してから最終回答を生成する。
実験の結果、SportsTimeが有用な評価ベンチマークであること、そしてCoTRが強力なMLLMベースラインに比べて時間的な合成推論と段階的グラウンディング品質の両方を一貫して改善することが示されている。