暗黙の優位性のためのスキップ結合型ポリシー最適化(Skip-Connected Policy Optimization)
arXiv cs.LG / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、密なトークン単位の報酬がRLVRの性能を向上させ得る一方で、実運用上のサンプリング予算の下でのモンテカルロ推定は、初期の推論トークンに対して高分散かつ符号整合性のない(sign-inconsistent)優位性(advantage)を生みやすく、その結果、実際には結果のみを扱うGRPOが上回ることを見出す。
- 推論を「上流(upstream)」と「下流(downstream)」の段階に分割し、単一ストリーム最適化のもとで下流のモンテカルロサンプリングを用いて上流に対する高密度報酬を与えるSkip-Connected Optimization(SKPO)を提案する。
- 下流段階では、SKPOはグループ相対ポリシー最適化(group-relative policy optimization)を維持しつつ、スキップ結合を追加する。これは上流区間と元の問題を連結(concatenate)し、モデルが質の高い上流の推論を活用しながら、問題への直接アクセスによって誤りを含む部分を迂回できるようにする。
- 実験では、数学およびドメイン外の推論・コード・ベンチマークにおいて、最強のベースラインに対してそれぞれQwen2.5-Math-7Bで3.91%、Llama-3.2-3Bで6.17%の相対的な改善が報告される。
- 著者らは、その利点を「暗黙の優位性(implicit advantage)」に帰している。すなわち、最終的な正しさが同等でも、SKPOは中間ステップの質をより高めることがある。




