EasyVideoR1:動画理解のためのより簡単な強化学習(RL)

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、RLVR(検証可能な報酬)に基づく考え方で大規模なビジョン・ランゲージモデルを動画理解タスクに学習させるための強化学習フレームワーク「EasyVideoR1」を提案しています。
  • EasyVideoR1は、オフライン前処理とテンソルキャッシュにより動画の繰り返しデコードを回避する効率的な学習パイプラインを備え、スループットを約1.47倍向上させます。
  • 11種類の動画/画像問題タイプにまたがるタスクに応じた報酬設計と、キュレーション済み軌跡とオンポリシー探索を組み合わせる混合(オフライン+オンライン)学習戦略を示しています。
  • 画素予算をモダリティごとに独立して設定できる画像・動画の同時学習にも対応し、両者が相互に強化し合えるようにします。
  • 22の主要な動画理解ベンチマークを対象に非同期の評価を行い、再現性の課題に対し、公式に報告された精度スコアと近い結果が得られたと述べています。

要旨: 検証可能な報酬からの強化学習(RLVR)は、大規模言語モデルの推論能力を向上させるうえで目覚ましい効果を示してきました。モデルがネイティブなマルチモーダル・アーキテクチャへと進化するにつれ、動画理解へRLVRを拡張することはますます重要になっていますが、依然としてほとんど未開拓です。その理由は、動画タスクの種類の多様性、高次元の視覚入力を繰り返しデコードして前処理することによる計算オーバーヘッド、そして多数のセンシティブなハイパーパラメータにまたがる再現可能な評価を行うことの難しさにあります。既存のオープンソースのRLトレーニング・フレームワークは、テキストおよび画像のシナリオに対しては堅牢なインフラを提供していますが、動画モダリティに特化した体系的な最適化を欠いています。本研究では、動画理解タスクに対して大規模な視覚-言語モデルを訓練するために特別に設計された、完全で効率的な強化学習フレームワークである\textbf{EasyVideoR1}を提示します。EasyVideoR1は次の貢献を行います:(1)オフライン前処理とテンソルキャッシュを備えた完全な動画RLトレーニング・パイプラインにより、冗長な動画デコードを排除し、1.47 imes のスループット向上を実現;(2)統一されたルーティングとモジュール拡張によって支える、11種類の異なる動画および画像問題タイプを網羅した包括的でタスク対応の報酬システム;(3)厳選された高品質な軌跡とオンポリシー探索を組み合わせる、混合オフライン-オンラインのデータ訓練パラダイムにより、より困難なタスクの学習を促進;(4)ピクセル予算をそれぞれ独立に設定可能な画像-動画の共同訓練により、両モダリティが相互に補強し合えるようにする;そして(5)22の主要な動画理解ベンチマークを対象とした非同期のマルチベンチマーク評価フレームワークにより、再現された精度が公式に報告されたスコアと非常に近い値に整合していることを実証。