ビデオ推論モデルは外の世界へ出る準備ができているか?

arXiv cs.CV / 2026/3/12

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ROVAは、現実世界の妨害における性能を改善するために、時空的汚染下で頑健性を意識した一貫性報酬を用いる、ビジョン-言語モデル向けの頑健性重視のトレーニングフレームワークです。
  • モデルの進化する能力に基づいて学習を適応させる難易度認識型オンライン学習戦略を採用し、自己反省的評価を通じてサンプル難易度を再推定します。
  • 著者らは、現実世界の摂動を具現化した動画データセットに摂動を注入して、摂動下での精度と推論を評価する新しいベンチマークPVRBenchを紹介します。
  • PVRBench、UrbanVideo、VisBenchでの評価において、現実世界の摂動下でモデルは最大で35%、推論は28%低下することが示され、一方ROVAは強力なベースラインと比較して相対精度を少なくとも24%、推論を9%以上向上させ、クリーンなベンチマークにもこの利得が移行します。
要旨: 実世界の展開において、ビジョン-言語モデルは天候、遮蔽、カメラの動きなどの妨害にしばしば直面します。このような条件下で、彼らの理解と推論は著しく低下し、クリーンで制御された(すなわち摂動されていない)評価設定と現実世界の頑健性との間にギャップを露わにします。この制限に対処するため、ROVAを提案します。ROVAは、時空的汚染下で頑健性を意識した一貫性報酬をモデル化することによって頑健性を向上させる新しいトレーニングフレームワークです。ROVAは、モデルの進化する能力に基づいて有益なサンプルを優先する難易度認識型オンライン学習戦略を導入します。具体的には、自己反省的評価を通じてサンプル難易度を継続的に再推定し、頑健性を意識した一貫性報酬を用いた適応的な学習を可能にします。我々はまた、現実世界の摂動を具現化した動画データセットに現実的な摂動を注入して、現実的な乱れの下での精度と推論品質の両方を評価する新しいベンチマークPVRBenchを紹介します。ROVAとベースラインをPVRBench、UrbanVideo、VisBenchで評価すると、オープンソースおよび専有モデルは現実的な摂動下で精度が最大35%、推論が28%低下します。ROVAは性能低下を効果的に緩和し、ベースラインモデルと比較して相対精度を少なくとも24%、推論を9%以上向上させます。これらの利得はクリーンな標準ベンチマークにも移行し、一貫した改善をもたらします。