SPS：大規模言語モデルの強化学習における探索改善のための確率スクイーズの制御（Steering Probability Squeezing）

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、推論向けモデルの強化学習（RL）では、単一サンプル成功（Pass@1）に過度に最適化されがちであり、多サンプル性能（Pass@k）に重要な多様な推論経路の探索が十分に進まないと主張している。
その原因として、確率が高報酬軌道のごく狭い集合に過剰に集中してしまう「確率スクイーズ（probability mass squeezing）」という本質的な現象を挙げている。
この問題に対処するため、著者らは Steering Probability Squeezing（SPS）を提案し、通常のRLと逆強化学習（IRL）を交互に行うことで、軌道分布を明示的に再形成して探索を高めるとしている。
5つの代表的な推論ベンチマークでの実験では、SPSが探索を改善し、Pass@kの向上につながることが示されている。
さらに、RLの学習ダイナミクスを分析し、達成可能なPass@kの経験的上限も推定することで、RLベースの推論モデルにおける内在的探索限界を明らかにしている。

概要: 強化学習（RL）は、ルールベースの報酬信号を活用することで、推論志向モデルを学習するための有望なパラダイムとして登場してきた。しかし、強化学習の訓練は通常、単一サンプルの成功率（すなわち Pass@1）を改善する一方で、多様な推論軌跡の探索は限定的であり、これは複数サンプル性能（すなわち Pass@k）にとって重要である。予備的な分析によれば、この制約は本質的な「スクイージング効果」から生じている。すなわち、確率質量が高報酬の軌跡の狭い部分集合へ過度に集中するため、真の探索が妨げられ、RL訓練で到達可能な性能が制限される。本研究では、この問題に対処するため、従来のRLと逆強化学習（IRL）を交互に組み込む学習パラダイム「Steering Probability Squeezing（SPS）」を提案する。SPSは、オンポリシーのロールアウトをデモンストレーションとして扱い、IRLを用いて、誘導された軌跡分布を明示的に再形成する。これにより、外部の教師なしで探索を強化する。5つの一般的に用いられる推論ベンチマークでの実験により、SPSがより良い探索を可能にし、Pass@kを改善できることを示す。アルゴリズム上の貢献に加えて、RL学習ダイナミクスの分析を行い、Pass@kに関する経験的な上限を同定することで、RLベースの推論モデルにおける内在的な探索限界に光を当てる。以上の結果は、RLとIRLを交互に切り替えることが、推論志向の大規模言語モデルの探索能力を拡張するための有効な道筋であることを示唆している。