サンプルルーティングによるグループ相対および自己蒸留のポリシー最適化の統合

arXiv cs.LG / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、GRPOやSDPOのような既存のRLVRポストトレーニング手法がなぜ性能を下げるのかを分析する：GRPOは粗いクレジット割当によって失敗したロールアウト全体を一様に罰し、SDPOは自己蒸留が長期学習の過程で不安定化しうる。これは、すでに正しいサンプルに関する曖昧さが生じ、教師（teacher）の信頼性が低下するためである。
提案手法は、オンポリシー型の枠組みであるSample-Routed Policy Optimization（SRPO）であり、正しいサンプルはGRPO型の報酬整合的強化学習へ、失敗したサンプルはSDPO型のトークン／ロジットレベルの補正へと選択的にルーティングする。
SRPOは、蒸留ターゲットのうちエントロピーが高い（信頼性が低い）ものを抑制し、確度の高いシグナルを優先するための、エントロピー認識型の動的重み付け戦略を追加する。
5つのベンチマークと2つのモデルサイズにおいて、SRPOはSDPOの速い初期の伸びと、GRPOの長期ホライゾンにおける安定性を併せ持ち、両ベースラインのピーク性能を上回ると報告されている。
著者らは、Qwen3-8Bに対してGRPO比で5ベンチマーク平均で3.4%の向上、SDPO比で6.3%の改善を報告しており、応答長は適度で、ステップあたりの計算コストは最大17.2%低減されるとしている。