サンプルルーティングによるグループ相対および自己蒸留のポリシー最適化の統合
arXiv cs.LG / 2026/4/3
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、GRPOやSDPOのような既存のRLVRポストトレーニング手法がなぜ性能を下げるのかを分析する:GRPOは粗いクレジット割当によって失敗したロールアウト全体を一様に罰し、SDPOは自己蒸留が長期学習の過程で不安定化しうる。これは、すでに正しいサンプルに関する曖昧さが生じ、教師(teacher)の信頼性が低下するためである。
- 提案手法は、オンポリシー型の枠組みであるSample-Routed Policy Optimization(SRPO)であり、正しいサンプルはGRPO型の報酬整合的強化学習へ、失敗したサンプルはSDPO型のトークン/ロジットレベルの補正へと選択的にルーティングする。
- SRPOは、蒸留ターゲットのうちエントロピーが高い(信頼性が低い)ものを抑制し、確度の高いシグナルを優先するための、エントロピー認識型の動的重み付け戦略を追加する。
- 5つのベンチマークと2つのモデルサイズにおいて、SRPOはSDPOの速い初期の伸びと、GRPOの長期ホライゾンにおける安定性を併せ持ち、両ベースラインのピーク性能を上回ると報告されている。
- 著者らは、Qwen3-8Bに対してGRPO比で5ベンチマーク平均で3.4%の向上、SDPO比で6.3%の改善を報告しており、応答長は適度で、ステップあたりの計算コストは最大17.2%低減されるとしている。




