S-GRPO:大規模ビジョン言語モデルのための統一型ポストトレーニング

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 現在のLVLMのポストトレーニング手法(SFTとRL)は、単独で用いるとそれぞれ問題があり、SFTは分布シフトによる破滅的忘却を招きやすく、RLは疎な報酬の視覚タスクでコールドスタート/最適化崩壊に陥りやすい。
  • 本論文では、イミテーション学習のガイダンスを多軌道の嗜好最適化に統合することで、安定性と探索性を両立する統一フレームワークS-GRPOを提案する。
  • S-GRPOは直接生成型の視覚タスク向けにConditional Ground-Truth Trajectory Injection(CGI)を導入し、検証器がサンプルした軌道群で探索的失敗を検知した場合に、検証済みの正解軌道を候補プールへ注入する。
  • 注入したアンカーに決定論的な最大報酬を与えることで、グループ相対優位推定における強い正の学習信号を確保し、教師あり学習目標をポリシーグラディエントの高アドバンテージ要素として言い換える。
  • 著者らは、理論分析と実験結果により、SFTまたはRLを単独で使う場合よりも収束が大幅に速く、ドメイン適応性能が高く、ベースモデルの汎用的マルチモーダル能力も維持できることを示している。