SFT（教師あり微調整）→RLがLLM推論における混合ポリシー手法を上回る

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

新しいarXiv論文は、LLM推論における混合（サポート付き学習と強化学習を組み合わせる）最適化手法の報告された改善が、主に誤ったベースラインに起因すると主張しています。
著者らは、DeepSpeedのCPUオフロード最適化が勾配蓄積中の中間マイクロバッチを静かに落とす問題と、OpenRLHFのミニバッチ損失の重み付けが不正である問題の2つのバグを特定しています。
これらを修正すると、標準的なSFT-then-RLパイプラインが評価したすべての混合ポリシー手法を上回り、Qwen2.5-Math-7Bで+3.8点、Llama-3.1-8Bで+22.2点の数学ベンチマーク改善が示されます。
さらに、RLステップを50に制限した縮約版でも、数学ベンチマークで混合ポリシー手法を上回り、かつ使用FLOPsが少ないことがわかります。
複数の派生学習フレームワークに影響する根本バグの存在を踏まえると、最近の混合ポリシーに関する結論を再評価する必要があることを示唆しています。

要旨: LLMの推論に対する最近の混合方策最適化手法では、教師あり学習と強化学習の信号を交互に織り込む、あるいはブレンドすることで、標準的なSFT（Supervised Fine-Tuning）→RLパイプラインより改善が得られると報告されています。本稿では、最近公開された多数の研究論文が、2つの別個の不具合によって引き起こされる誤ったベースラインに依存していることを示します。具体的には、DeepSpeedにおけるCPUオフロード型オプティマイザの不具合で、勾配蓄積（gradient accumulation）中に中間のマイクロバッチがサイレントにドロップされます（TRL、OpenRLHF、Llama-Factoryを含む複数の下流フレームワークに影響）。さらに、OpenRLHFにおける損失集約の不具合により、ミニバッチごとの損失に対して誤った重み付けが行われます。これらはSFTの性能を抑制し、オプティマイザ不具合が主にそのギャップの原因となり、損失集約不具合はより小さな追加効果を与えるにとどまります。これらを修正すると、標準的なSFT→RLパイプラインは、評価したあらゆる公開済みの混合方策手法を上回ります。Qwen2.5-Math-7Bで数学ベンチマークにおいて+3.8ポイント、Llama-3.1-8Bでは+22.2ポイントです。さらに、RLステップを50ステップに切り詰めた変種であっても、FLOPsを少なくしつつ、数学ベンチマーク上で混合方策手法を上回ります。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/28Dailyインサイトを見る →

Claude Codeのフックで開発ワークフローを自動化する方法

Dev.to

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

Dev.to

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

Dev.to

PicoClaw ディープダイブ：Goで超軽量AIエージェントを作るためのフィールドガイド

Dev.to

DeNAやGOなど、AI勉強会の資料を無料公開中　累計100件超

ITmedia AI+

SFT（教師あり微調整）→RLがLLM推論における混合ポリシー手法を上回る

要点

💡 この記事が使われたインサイト

関連記事

Claude Codeのフックで開発ワークフローを自動化する方法

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

PicoClaw ディープダイブ：Goで超軽量AIエージェントを作るためのフィールドガイド

DeNAやGOなど、AI勉強会の資料を無料公開中　累計100件超

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Claude Codeのフックで開発ワークフローを自動化する方法

低コストAI推論のためのClaude Haiku活用：競馬予測システムから見えるパターン

環境型AIによる臨床記録（ドキュメント）パイプラインをどう構築したか（医師の週8時間以上を削減）

PicoClaw ディープダイブ：Goで超軽量AIエージェントを作るためのフィールドガイド

DeNAやGOなど、AI勉強会の資料を無料公開中 累計100件超

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

DeNAやGOなど、AI勉強会の資料を無料公開中　累計100件超