MSRL:多段階強化学習による生成的マルチモーダル報酬モデリングのスケーリング

arXiv cs.CV / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 提案論文では、マルチモーダル報酬モデル(MRM)の大規模化におけるボトルネックである高コストなマルチモーダル選好データを削減するため、多段階の強化学習(MSRL)を導入します。
  • MSRLは、まず大規模なテキスト選好データから報酬推論能力を学習し、その後「キャプション段階」「完全マルチモーダル段階」と段階的に知識を移すことで、RLVR系トレーニングをマルチモーダルへスケールさせます。
  • さらに、クロスモーダル知識蒸留により選好一般化を改善し、限定的なマルチモーダルデータでも性能を伸ばすことを狙います。