MemReward: 限られたラベルでの大規模言語モデル報酬予測のためのグラフベースの経験メモリ

arXiv cs.AI / 2026/3/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

MemRewardは、限られた報酬ラベルを伴うLLM強化学習のためのグラフベースの経験メモリを導入し、各ロールアウト（思考過程と最終回答）を異種グラフのノードとして保存し、オンライン最適化中にGNNを用いて未ラベルノードへ報酬を伝播させる。
このフレームワークは、クエリ、思考過程、および回答をノードとしてモデル化し、それらを類似性と構造的エッジによって結ぶ。これにより、報酬信号が関連する経験間で伝達される。
Qwen2.5-3Bおよび1.5Bを対象とした数学、質問応答、およびコード生成の分野での実験は、ラベルがわずか20%であっても、MemRewardが3BでOracleの約97.3%、1.5Bで約96.6%の性能を達成し、ドメイン外タスクでOracleを上回ることを示した。
ラベル予算が増えるにつれて性能は滑らかにスケールし、70%のラベルでOracleの99.4%に達することを示しており、データ効率が高く、RLHFワークフローにおける実用的な潜在能力を示唆している。

要約：複雑な推論のために強化学習を用いて大規模言語モデル（LLM）を訓練するには、生成されたロールアウトが正しいかどうかを示す報酬ラベルが必要です。しかし、規模を拡大して報酬ラベルを取得するには、しばしば高価な人手ラベリングや時間のかかる検証手順を要します；例えば、数学的証明の評価には専門家のレビューが求められ、一方、オープンエンドの質問応答には決定的な基準データがありません。報酬ラベルが限られている場合、強化学習のファインチューニングの有効性は報酬ラベルの希少性によって制約されます。私たちは MemReward を紹介します。グラフベースのエクスペリエンスメモリフレームワークです：初期の LLM ポリシーは各クエリについてロールアウトを生成し、それぞれが思考過程と最終回答から成り、それらのロールアウトはエクスペリエンスメモリとして格納されます。クエリ、思考過程、回答は、類似性と構造的エッジを持つ異種グラフのノードを形成します；ラベル付きノードで訓練された GNN がオンライン最適化の間に報酬を未ラベルのロールアウトへ伝播します。 Qwen2.5-3B および 1.5B を対象とした数学、質問応答、コード生成に関する実験は、20% のラベルしかなくても MemReward が 3B で Oracle の性能の 97.3%、1.5B で 96.6% を達成し、ドメイン外タスクで Oracle を上回ることを示しています。ラベル予算が増えるにつれて性能は滑らかにスケールし、70% のラベルで Oracle の 99.4% に達します。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/23Dailyインサイトを見る →

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

Dev.to

AIにおけるMCPを解説（実例付き）

Dev.to

MemReward: 限られたラベルでの大規模言語モデル報酬予測のためのグラフベースの経験メモリ

要点

💡 この記事が使われたインサイト

関連記事

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

カオスからコンプライアンスへ：モバイル・キッチンのためのAIオートメーション

AIにおけるMCPを解説（実例付き）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer