検索駆動型強化学習により報酬関数を最適化し、LLMの推論力を向上させる

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、LLMの方策だけでなく報酬関数の仕様そのものを最適化して数学的推論性能を高める、検索駆動型強化学習の枠組みを提案しています。
固定したベースモデル（Llama-3.2-3B-Instruct）にLoRAを用い、フロンティア言語モデルで候補報酬関数を生成し、自動バリデーションのうえでGRPOの500ステップ学習でふるい分け、GSM8KのF1でランキングします。
5回の反復で50個の候補報酬を生成し、GSM8Kの平均F1をRound 1の0.596からRound 5の0.632へ改善し、最良の単体報酬ではF1 = 0.787に到達します。
上位報酬のアンサンブル評価では、最良のアンサンブルがF1 = 0.795、精度0.660を達成し、ベース報酬のみのGRPO基準（F1 = 0.609）に対して絶対値で+0.19のF1向上を示します。
コントロール実験と統計的検定（Bonferroni補正付きMcNemar検定）により、改善は「より多くの報酬を足す」ことではなく「ランキングに基づくフィードバックループ」によって生じることが示されています。

Dev.to

Dev.to

TechCrunch

Dev.to

Dev.to