要旨: 強化学習(RL)は、小型および大型の言語モデル(LLM)の推論能力を大幅に向上させ得ることが示されているが、既存の手法は通常、検証可能な報酬、つまり正解ラベルに依存している。そこで我々は、ラベルなしデータを大量に用いてモデル出力を評価する「審判」として機能するLLMから報酬を得るRLフレームワークを提案する。これにより、正解となる教師データの必要性を置き換え、ラベル不要の知識蒸留を可能にする。特に、この審判は単一トークンの出力で動作するため、報酬計算が効率的である。検証可能な報酬と組み合わせると、我々の手法は数学推論のベンチマーク群において大きな性能向上をもたらす。これらの結果は、LLMベースの評価器が、RLの微調整に対して有効な学習信号を生成できることを示唆している。
LLM-as-a-Judgeによる強化学習ベースの知識蒸留
arXiv cs.CL / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ラベルなし知識蒸留のための強化学習(RL)フレームワークを提案しており、LLMのジャッジがラベルなしデータから学習報酬を生成する。
- 検証可能な教師信号(正解ラベル/報酬)を必要とする従来のRL蒸留手法とは異なり、ジャッジは監督を要せず効率的な報酬信号を提供する。
- ジャッジは単一トークンを出力するよう設計されており、報酬計算の計算コストを抑えることで、大規模学習をより実現可能にする。
- 実験により、LLMジャッジの報酬に検証可能な報酬を組み合わせることで、数学推論ベンチマークで大きな改善が得られることが示される。
- 著者らは、LLMベースの評価者がRLファインチューニングの効果的な学習信号として機能し得ると結論づけており、監督の取得方法を広げられる可能性を示している。




