LLMsに推論を教える際、複雑な損失関数は必要ですか?
arXiv cs.LG / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文はGRPOを分析し、2つの重要な結果を示している。負のフィードバックを取り入れることは学習に不可欠である一方、ベースラインを超える行動のみで訓練することは性能を制限する。
- PPOスタイルの制約(例えばポリシー比クリッピング)は、数学的推論能力や全体的な性能を改善するためには必須ではないことを示している。
- 著者らはGRPOの簡略化版であるRGRAを導入する。RGRAはグループ相対優位推定を保持するが、PPOスタイルのクリッピングおよびポリシー比の項を削除している。
- 標準的な数学ベンチマーク全体で、RGRAはGRPOを上回る可能性を示しており、より単純なREINFORCEベースのアプローチがLLMの推論能力を効果的に高め、より透明な訓練パラダイムを提供できることを示唆している。

