S-GRPO：大規模ビジョン言語モデルのための統一型ポストトレーニング

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

現在のLVLMのポストトレーニング手法（SFTとRL）は、単独で用いるとそれぞれ問題があり、SFTは分布シフトによる破滅的忘却を招きやすく、RLは疎な報酬の視覚タスクでコールドスタート／最適化崩壊に陥りやすい。
本論文では、イミテーション学習のガイダンスを多軌道の嗜好最適化に統合することで、安定性と探索性を両立する統一フレームワークS-GRPOを提案する。
S-GRPOは直接生成型の視覚タスク向けにConditional Ground-Truth Trajectory Injection（CGI）を導入し、検証器がサンプルした軌道群で探索的失敗を検知した場合に、検証済みの正解軌道を候補プールへ注入する。
注入したアンカーに決定論的な最大報酬を与えることで、グループ相対優位推定における強い正の学習信号を確保し、教師あり学習目標をポリシーグラディエントの高アドバンテージ要素として言い換える。
著者らは、理論分析と実験結果により、SFTまたはRLを単独で使う場合よりも収束が大幅に速く、ドメイン適応性能が高く、ベースモデルの汎用的マルチモーダル能力も維持できることを示している。