MSRL:多段階強化学習による生成的マルチモーダル報酬モデリングのスケーリング
arXiv cs.CV / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 提案論文では、マルチモーダル報酬モデル(MRM)の大規模化におけるボトルネックである高コストなマルチモーダル選好データを削減するため、多段階の強化学習(MSRL)を導入します。
- MSRLは、まず大規模なテキスト選好データから報酬推論能力を学習し、その後「キャプション段階」「完全マルチモーダル段階」と段階的に知識を移すことで、RLVR系トレーニングをマルチモーダルへスケールさせます。
- さらに、クロスモーダル知識蒸留により選好一般化を改善し、限定的なマルチモーダルデータでも性能を伸ばすことを狙います。




