SFT-GRPOのデータ重なりを、オートフォーマリゼーションのためのポストトレーニング・ハイパーパラメータとして扱う
arXiv cs.LG / 2026/4/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、スーパー バイズド・ファインチューニング(SFT)データとGroup Relative Policy Optimization(GRPO)プロンプトの重なりが、Lean 4のオートフォーマリゼーションにおけるポストトレーニング性能へ与える影響について、制御されたアブレーション(機能削除)研究を提示する。
- Qwen3-8B(thinking無効)を用いた実験では、基準(ベース)、SFTのみ、GRPOのみ、SFT+GRPOの各設定を比較し、GRPOプロンプトの重なり率をSFTコーパスに対して0%、30%、100%としつつ、計算コストは一定に保つ。
- 結果から、SFTデータとGRPOデータを互いに非重複のまま維持することが、追加の計算コストを増やさない状況で常に完全重なりよりも優れており、重なりが小さくなるほど性能が単調に向上することが示される。
- Gaokao-Formalでは、0%重なりにより、SFT単独に対してGRPOが意味的(セマンティック)に10.4ポイント改善する一方、100%重なりではコンパイル指標と意味的指標の双方が頭打ちになり、GRPOが実質的に冗長になる。
- 本研究は、デュアルな指標による評価によって、コンパイルとセマンティックの間に30点超の大きなギャップが存在することを明らかにし、コンパイルのみのベンチマークでは見落とされ得る差を捉えることで、SFT-GRPOの重なりを意義のあるポストトレーニング・ハイパーパラメータとして位置づける。