広告

STRIVE:ビデオ質問応答における強化学習のための構造化された時空間探索

arXiv cs.CV / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、入力ビデオの時空間的なバリアントを用いて学習シグナルを強化する、ビデオ質問応答のための構造化強化学習フレームワーク「STRIVE」を提案する。
  • テキスト生成と構造化された視覚的摂動の両方に対して、グループベースの方策最適化で見られる弱い、または不安定なアドバンテージ推定を緩和するために、共同正規化を行う。
  • STRIVEは、質問に関連するフレームを優先する重要度に基づくサンプリングを追加しつつ、時間的なカバレッジも維持することで、探索を意味的に根付かせる。
  • 6つのビデオ推論ベンチマーク(VideoMME、TempCompass、VideoMMMU、MMVU、VSI-Bench、PerceptionTest)における実験では、複数の大規模マルチモーダルモデルにわたり、強力な強化学習ベースラインに対して一貫した改善が示される。

広告