AI Navigate

LLMsに推論を教える際、複雑な損失関数は必要ですか?

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文はGRPOを分析し、2つの重要な結果を示している。負のフィードバックを取り入れることは学習に不可欠である一方、ベースラインを超える行動のみで訓練することは性能を制限する。
  • PPOスタイルの制約(例えばポリシー比クリッピング)は、数学的推論能力や全体的な性能を改善するためには必須ではないことを示している。
  • 著者らはGRPOの簡略化版であるRGRAを導入する。RGRAはグループ相対優位推定を保持するが、PPOスタイルのクリッピングおよびポリシー比の項を削除している。
  • 標準的な数学ベンチマーク全体で、RGRAはGRPOを上回る可能性を示しており、より単純なREINFORCEベースのアプローチがLLMの推論能力を効果的に高め、より透明な訓練パラダイムを提供できることを示唆している。

Abstract

大規模言語モデル(LLMs)における最近の進展は、推論能力と数学的能力を向上させるための事後訓練技術の重要性を浮き彫りにしています。Group Relative Policy Optimization (GRPO) は、グループ相対優位性推定、PPO風のクリッピング、KL正則化を組み合わせることでこの分野で有望であることを示しています。しかし、その複雑さは、推論行動を育成するのにすべての成分が必要かどうかという疑問を投げかけます。GRPOの体系的な分析を行い、二つの重要な発見を特定しました: (1) 負のフィードバックを組み込むことは不可欠であり、基準以上の行動のみに対する訓練は学習を制限します; および (2) ポリシー比クリッピングのようなPPO風の制約は、数学的推論や性能を向上させるためには必要ありません。これらの洞察に基づき、REINFORCE with Group Relative Advantage (RGRA) を提案します。これは、グループ相対優位性推定を保持しつつ、PPO風のクリッピングとポリシー比項を削除した簡略化されたバリアントです。標準的な数学ベンチマークにおける実験は、RGRA が GRPO よりも強力な性能を達成する可能性があることを示しています。我々の結果は、より単純なREINFORCEベースのアプローチがLLMsの推論を効果的に向上させることができ、GRPOよりも透明で効率的な代替手段を提供することを示唆しています。