難易度スケーリングの限界:GRPOで調整したSLMでは難しいサンプルほど頭打ちとなる
arXiv cs.LG / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、より小型の言語モデル(最大30億パラメータ)において、嗜好最適化(LoRAを用いたGRPO)が数学問題の難易度が上がるにつれて推論精度を改善するかどうかを検証する。
- 結果として、より難しいティアでは精度が頭打ちになることが示されており、GRPOは最も難しいサンプルを確実に解ける能力を拡張するというより、出力の嗜好を主に再調整している可能性が示唆される。
- 難易度の低い問題に対してのみGRPOで訓練すると、全データセットを用いた場合と同程度の精度を難易度ティア全体で再現でき、さらに訓練ステップの約45%で済むことから、最も難しい例を含めることによる収益逓減(デミニッシング・リターン)が示される。
- データセットをまたいだ効果も観測される。GSM8KでGRPOを学習したモデルは、MATHで学習したGRPOモデルよりも、MATHの数値サブセットで良好な性能を示し、1.5Bで約5%、3Bで約3%の改善が得られる。
- 著者らは、達成可能な改善は、ベースモデルの初期の推論能力と、対象データセットが持つ難易度分布に強く依存すると結論づけている。




