S-GRPO:大規模ビジョン言語モデルのための統一型ポストトレーニング
arXiv cs.LG / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 現在のLVLMのポストトレーニング手法(SFTとRL)は、単独で用いるとそれぞれ問題があり、SFTは分布シフトによる破滅的忘却を招きやすく、RLは疎な報酬の視覚タスクでコールドスタート/最適化崩壊に陥りやすい。
- 本論文では、イミテーション学習のガイダンスを多軌道の嗜好最適化に統合することで、安定性と探索性を両立する統一フレームワークS-GRPOを提案する。
- S-GRPOは直接生成型の視覚タスク向けにConditional Ground-Truth Trajectory Injection(CGI)を導入し、検証器がサンプルした軌道群で探索的失敗を検知した場合に、検証済みの正解軌道を候補プールへ注入する。
- 注入したアンカーに決定論的な最大報酬を与えることで、グループ相対優位推定における強い正の学習信号を確保し、教師あり学習目標をポリシーグラディエントの高アドバンテージ要素として言い換える。
- 著者らは、理論分析と実験結果により、SFTまたはRLを単独で使う場合よりも収束が大幅に速く、ドメイン適応性能が高く、ベースモデルの汎用的マルチモーダル能力も維持できることを示している。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA