SSPO: 部部分(サブセンテンス)レベルのポリシー最適化

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のRLVRポストトレーニング手法における安定性問題を特定する: GRPOは、トークン単位の重要度比が外れ値を過度に強調してしまうことで崩壊し得る一方、GSPOは、応答(レスポンス)レベルのクリッピングが高分散の応答全体を効果的に保持してしまう場合に不安定なままとなり得る。
  • それを踏まえ、分散の低減とGRPO/GSPOのクリッピング失敗モードの防止のバランスを取るために、サブセンテンス(部分文)レベルで重要度比を計算するSSPO(Subsentence-level Policy Optimization)を提案する。
  • SSPOはさらに、PPO-CLIPにサブセンテンスレベルのエントロピーを追加することでクリッピング境界を適応的に調整し、低エントロピートークンでは境界をより厳しく(タイトに)しつつ、高エントロピー領域ではより多くの探索を可能にする。
  • Qwen2.5-1.5B-Mathでの実験では、SSPOは5つのデータセットで平均スコア46.72を達成し、GRPO(43.01)およびGSPO(44.42)を上回る。さらに4つのデータセットで新たな最先端(SOTA)結果を示す。
  • Qwen2.5-7B-Mathでも、SSPOは5つの基準手法に対する平均スコアで再び先頭に立ち、数学的推論に対してRLVRの有効性を改善するという主張を支持する。

要旨: 大規模言語モデル(LLM)の事後学習における重要な構成要素として、検証可能な報酬からの強化学習(Reinforcement Learning from Verifiable Rewards; RLVR)は推論性能を大幅に向上させてきました。しかし、既存のRLVRアルゴリズムには明確な安定性の問題が見られます。GRPO(Group Relative Policy Optimization)はしばしば不安定な方策更新に悩まされる一方で、GSPO(Group Sequence Policy Optimization)は高分散のトークンを保持しやすい可能性があります。GRPOでは重要度比(importance ratio)がトークン単位で計算されるため、個々のトークンへの重み付けが過度になり、外れ値に対して学習が敏感になり、学習の崩壊を引き起こす可能性があります。GSPOは代わりに応答(response)単位の重要度比を計算し、分散を緩和し、GRPOに存在するトークン単位のノイズの蓄積を抑えます。それでもなお、我々の実験ではGSPOがしばしばクリッピング率(clipping fraction)がほぼゼロになることを示しています。極端なトークン単位の比は、同じ応答内の他のトークンによって薄められてしまい、その結果として応答全体が保持され、更新が不安定になるためです。そこで、GRPOとGSPOのバランスを取るSSPOを提案します。SSPOは重要度比をセンテンス未満(subsentence)単位で計算し、学習の崩壊と過剰な分散を緩和すると同時に、クリッピング機構が応答全体を無差別に保持してしまうという失敗モードを回避します。さらに我々は、PPO-CLIPにセンテンス未満単位のエントロピーを組み込み、クリッピング境界を適応的に調整します。すなわち、エントロピーが高いトークンには探索を促し、エントロピーが低いトークンに対してはクリッピング範囲を締めます。実験的に、SSPOはQwen2.5-1.5B-Mathモデルにおいて5つのデータセット平均スコアが46.72であり、GRPO(43.01)やGSPO(44.42)を上回り、4つのデータセットで最先端(state-of-the-art)の結果を達成しています。Qwen2.5-7B-Mathモデルにおいても、SSPOは5つのベースライン手法の中で平均スコアが最も高い結果を示しました。これらの結果は、SSPOのRLVRにおける有効性を示しています。