系列レベル強化学習における比較ユニットを再考:損失補正からサンプル構築へ—等長ペア学習フレームワーク

arXiv cs.LG / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、系列レベルの相対強化学習における長さ関連の問題が、単なる損失スケーリングや正規化の偏りだけでなく、学習時の比較ユニットが本質的に比較可能でないことに起因していると主張します。
  • 「長さ問題」を比較ユニットの構築問題として捉え直し、サンプル構築を重視した学習アプローチを提案します。
  • 学習時に事後的な補正に頼るのではなく、生成段階で等長・整合可能・比較可能な訓練セグメントをあらかじめ構築します。
  • GRPO、GSPO、RLOO などのグループ相対比較アルゴリズム向けに、EqLen という具体的手法を示し、デュアルトラック同時生成、プレフィックス継承、セグメントマスキングによって有効な等長セグメントを効率よく収集します。
  • 比較される応答が生成中に適切に整列し、比較可能になることで、より安定した学習を実現することが目的です。