要約:複雑な推論のために強化学習を用いて大規模言語モデル(LLM)を訓練するには、生成されたロールアウトが正しいかどうかを示す報酬ラベルが必要です。 しかし、規模を拡大して報酬ラベルを取得するには、しばしば高価な人手ラベリングや時間のかかる検証手順を要します;例えば、数学的証明の評価には専門家のレビューが求められ、一方、オープンエンドの質問応答には決定的な基準データがありません。 報酬ラベルが限られている場合、強化学習のファインチューニングの有効性は報酬ラベルの希少性によって制約されます。 私たちは MemReward を紹介します。グラフベースのエクスペリエンスメモリフレームワークです:初期の LLM ポリシーは各クエリについてロールアウトを生成し、それぞれが思考過程と最終回答から成り、それらのロールアウトはエクスペリエンスメモリとして格納されます。 クエリ、思考過程、回答は、類似性と構造的エッジを持つ異種グラフのノードを形成します;ラベル付きノードで訓練された GNN がオンライン最適化の間に報酬を未ラベルのロールアウトへ伝播します。 Qwen2.5-3B および 1.5B を対象とした数学、質問応答、コード生成に関する実験は、20% のラベルしかなくても MemReward が 3B で Oracle の性能の 97.3%、1.5B で 96.6% を達成し、ドメイン外タスクで Oracle を上回ることを示しています。 ラベル予算が増えるにつれて性能は滑らかにスケールし、70% のラベルで Oracle の 99.4% に達します。
MemReward: 限られたラベルでの大規模言語モデル報酬予測のためのグラフベースの経験メモリ
arXiv cs.AI / 2026/3/23
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- MemRewardは、限られた報酬ラベルを伴うLLM強化学習のためのグラフベースの経験メモリを導入し、各ロールアウト(思考過程と最終回答)を異種グラフのノードとして保存し、オンライン最適化中にGNNを用いて未ラベルノードへ報酬を伝播させる。
- このフレームワークは、クエリ、思考過程、および回答をノードとしてモデル化し、それらを類似性と構造的エッジによって結ぶ。これにより、報酬信号が関連する経験間で伝達される。
- Qwen2.5-3Bおよび1.5Bを対象とした数学、質問応答、およびコード生成の分野での実験は、ラベルがわずか20%であっても、MemRewardが3BでOracleの約97.3%、1.5Bで約96.6%の性能を達成し、ドメイン外タスクでOracleを上回ることを示した。
- ラベル予算が増えるにつれて性能は滑らかにスケールし、70%のラベルでOracleの99.4%に達することを示しており、データ効率が高く、RLHFワークフローにおける実用的な潜在能力を示唆している。