概要:大規模言語モデル(LLMs)の推論能力の向上は大きな注目を集めており、教師あり微調整(SFT)と強化学習が支配的なパラダイムとして浮上しています。最近の研究は、推論過程における内省の重要性を認識している一方で、既存の方法論は訓練中の積極的な内省の促進にはほとんど対応していません。本研究は、Group Relative Policy Optimization(GRPO)と内省報酬機構を統合した4段階のフレームワークを提案することにより、LLMsの自己内省能力を強化し、数学的推論に焦点を当てます。さらに、このアプローチは既存の正確性報酬と形式報酬を組み込んでいます。実験結果は、内省を促進する訓練を通じたGRPOの最先端の性能を示しており、アブレーション研究は内省報酬の中核的な役割を確認しています。比較評価は、計算負荷が高くなるにもかかわらず、全パラメータのSFTが低ランク適応(LoRA)より優れていることを示しています。これらの蓄積された知見に基づき、本研究は訓練後の最適化におけるGRPOの方法論的意義を裏付け、認知報酬と動的環境相互作用の統合を通じて、将来のLLMベースのインテリジェントエージェントを支える重要な推進力となる可能性を示しています。
大規模言語モデルにおける数学的推論のためのGRPOとリフレクション報酬
arXiv cs.AI / 2026/3/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、訓練中のLLMsの自己反省的な数学的推論を強化するために、GRPO(グループ相対方策最適化)とリフレクション報酬機構を組み合わせた4段階のフレームワークを提案する。
- アプローチには、信頼性の高い、整然とした出力を保証するために、従来の正確性報酬および形式報酬も組み込まれている。
- 実験結果は、リフレクションを奨励する訓練を組み込んだGRPOが最先端の性能を達成することを示しており、アブレーション研究はリフレクション報酬の極めて重要な役割を際立たせている。
- 本論文は、全パラメータの監視付きファインチューニング(SFT)がLoRAを上回ることを示す一方で、計算コストは高くなると指摘している。また、GRPOをポストトレーニングの最適化として位置づけ、認知報酬と動的環境相互作用を通じて将来の知的エージェントを実現する道を描いている。




