要旨: LLMの推論に対する最近の混合方策最適化手法では、教師あり学習と強化学習の信号を交互に織り込む、あるいはブレンドすることで、標準的なSFT(Supervised Fine-Tuning)→RLパイプラインより改善が得られると報告されています。本稿では、最近公開された多数の研究論文が、2つの別個の不具合によって引き起こされる誤ったベースラインに依存していることを示します。具体的には、DeepSpeedにおけるCPUオフロード型オプティマイザの不具合で、勾配蓄積(gradient accumulation)中に中間のマイクロバッチがサイレントにドロップされます(TRL、OpenRLHF、Llama-Factoryを含む複数の下流フレームワークに影響)。さらに、OpenRLHFにおける損失集約の不具合により、ミニバッチごとの損失に対して誤った重み付けが行われます。これらはSFTの性能を抑制し、オプティマイザ不具合が主にそのギャップの原因となり、損失集約不具合はより小さな追加効果を与えるにとどまります。これらを修正すると、標準的なSFT→RLパイプラインは、評価したあらゆる公開済みの混合方策手法を上回ります。Qwen2.5-Math-7Bで数学ベンチマークにおいて+3.8ポイント、Llama-3.1-8Bでは+22.2ポイントです。さらに、RLステップを50ステップに切り詰めた変種であっても、FLOPsを少なくしつつ、数学ベンチマーク上で混合方策手法を上回ります。
SFT(教師あり微調整)→RLがLLM推論における混合ポリシー手法を上回る
arXiv cs.LG / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 新しいarXiv論文は、LLM推論における混合(サポート付き学習と強化学習を組み合わせる)最適化手法の報告された改善が、主に誤ったベースラインに起因すると主張しています。
- 著者らは、DeepSpeedのCPUオフロード最適化が勾配蓄積中の中間マイクロバッチを静かに落とす問題と、OpenRLHFのミニバッチ損失の重み付けが不正である問題の2つのバグを特定しています。
- これらを修正すると、標準的なSFT-then-RLパイプラインが評価したすべての混合ポリシー手法を上回り、Qwen2.5-Math-7Bで+3.8点、Llama-3.1-8Bで+22.2点の数学ベンチマーク改善が示されます。
- さらに、RLステップを50に制限した縮約版でも、数学ベンチマークで混合ポリシー手法を上回り、かつ使用FLOPsが少ないことがわかります。
- 複数の派生学習フレームワークに影響する根本バグの存在を踏まえると、最近の混合ポリシーに関する結論を再評価する必要があることを示唆しています。



