SSL-R1:マルチモーダル大規模言語モデル向け自己教師ありビジュアル強化学習の事前学習後(ポストトレーニング)

arXiv cs.CV / 2026/4/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、画像から検証可能な報酬を生成することで、マルチモーダルLLM(MLLM)のための自己教師あり強化学習(RL)ポストトレーニング基盤「SSL-R1」を提案しています。
  • 既存のRLVRが言語中心の事前知識や高コストな手作業アノテーションに依存しがちな点を、外部モデルの監督や人手の介入なしで解決することを目指しています。
  • SSL-R1はビジュアル分野の自己教師あり学習(SSL)を見直し、一般的に用いられるSSLタスクをRLポストトレーニング向けの「検証可能な視覚パズル」へと再定式化します。
  • 実験では、マルチモーダル理解・推論ベンチマークでMLLMの性能が大きく向上したと報告されており、視覚中心のSSLタスクが視覚的推論を高め得ることを示唆しています。
  • 著者らはプロジェクトのコードを公開し、検証可能でスケール可能な自己教師あり報酬設計に関する再利用可能な知見を提供すると主張しています。

要旨: 検証可能な報酬(RLVR)を用いた強化学習(RL)は、多モーダル大規模言語モデル(MLLMs)の推論能力を高める大きな可能性を示してきました。しかし、言語中心の事前知識への依存や高価な手作業による注釈は、MLLMの本質的な視覚理解や、スケーラブルな報酬設計を妨げています。本研究では、画像から直接検証可能な報酬を導出する汎用の自己教師あり強化学習フレームワークであるSSL-R1を導入します。そのために、視覚領域における自己教師あり学習(SSL)を改めて見直し、広く用いられているSSLタスクを、RLの事後学習(post-training)のための一連の検証可能な視覚パズルへと再定式化します。これにより、人間や外部モデルによる監督は不要になります。これらのタスクでMLLMを学習させることで、多モーダル理解および推論のベンチマークにおける性能が大幅に向上し、MLLMの事後学習において視覚中心の自己教師ありタスクを活用する可能性が示されます。本研究は、スケールしたRLを可能にするための効果的な自己教師ありの検証可能な報酬を考案するうえで有用な知見を提供すると考えています。プロジェクトページ: https://github.com/Jiahao000/SSL-R1.

SSL-R1:マルチモーダル大規模言語モデル向け自己教師ありビジュアル強化学習の事前学習後(ポストトレーニング) | AI Navigate